-
大小: 888KB文件类型: .zip金币: 2下载: 1 次发布日期: 2021-05-28
- 语言: Python
- 标签:
资源简介
利用Python实现中文文本关键词抽取,分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法。
代码片段和文件信息
#!/usr/bin/python
# coding=utf-8
# 采用TextRank方法提取文本关键词
import sys
import pandas as pd
import jieba.analyse
“““
TextRank权重:
1、将待抽取关键词的文本进行分词、去停用词、筛选词性
2、以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图
3、计算图中节点的PageRank,注意是无向带权图
“““
# 处理标题和摘要,提取关键词
def getKeywords_textrank(datatopK):
idListtitleListabstractList = data[‘id‘]data[‘title‘]data[‘abstract‘]
ids titles keys = [] [] []
for index in range(len(idList)):
text = ‘%s。%s‘ % (titleList[index] abstractList[index]) # 拼接标题和摘要
jieba.analyse.set_stop_words(“data/stopWord.txt“) # 加载自定义停用词表
print “\““titleList[index]“\““ “ 10 Keywords - TextRank :“
keywords = jieba.analyse.textrank(text topK=topK allowPOS=(‘n‘‘nz‘‘v‘‘vd‘‘vn‘‘l‘‘a‘‘d‘)) # TextRank关键词提取,词性筛选
word_split = “ “.join(keywords)
print word_split
keys.append(word_split.encode(“utf-8“))
ids.append(idList[index])
titles.append(titleList[index])
result = pd.Dataframe({“id“: ids “title“: titles “key“: keys} columns=[‘id‘ ‘title‘ ‘key‘])
return result
def main():
dataFile = ‘data/sample_data.csv‘
data = pd.read_csv(dataFile)
result = getKeywords_textrank(data10)
result.to_csv(“result/keys_TextRank.csv“index=False)
if __name__ == ‘__main__‘:
main()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2018-01-16 01:10 keyword_extraction-master\
文件 22135 2018-01-16 01:10 keyword_extraction-master\README.md
目录 0 2018-01-16 01:10 keyword_extraction-master\data\
文件 6782 2018-01-16 01:10 keyword_extraction-master\data\sample_data.csv
文件 9373 2018-01-16 01:10 keyword_extraction-master\data\stopWord.txt
文件 1638 2018-01-16 01:10 keyword_extraction-master\keyextract_textrank.py
文件 3722 2018-01-16 01:10 keyword_extraction-master\keyextract_tfidf.py
文件 2686 2018-01-16 01:10 keyword_extraction-master\keyextract_word2vec_1.py
文件 4045 2018-01-16 01:10 keyword_extraction-master\keyextract_word2vec_2.py
目录 0 2018-01-16 01:10 keyword_extraction-master\result\
文件 1130 2018-01-16 01:10 keyword_extraction-master\result\keys_TFIDF.csv
文件 1130 2018-01-16 01:10 keyword_extraction-master\result\keys_TextRank.csv
文件 1133 2018-01-16 01:10 keyword_extraction-master\result\keys_word2vec.csv
目录 0 2018-01-16 01:10 keyword_extraction-master\result\vecs\
文件 375478 2018-01-16 01:10 keyword_extraction-master\result\vecs\wordvecs_1.csv
文件 141841 2018-01-16 01:10 keyword_extraction-master\result\vecs\wordvecs_10.csv
文件 184382 2018-01-16 01:10 keyword_extraction-master\result\vecs\wordvecs_2.csv
文件 154035 2018-01-16 01:10 keyword_extraction-master\result\vecs\wordvecs_3.csv
文件 154759 2018-01-16 01:10 keyword_extraction-master\result\vecs\wordvecs_4.csv
文件 263297 2018-01-16 01:10 keyword_extraction-master\result\vecs\wordvecs_5.csv
文件 160204 2018-01-16 01:10 keyword_extraction-master\result\vecs\wordvecs_6.csv
文件 136095 2018-01-16 01:10 keyword_extraction-master\result\vecs\wordvecs_7.csv
文件 185739 2018-01-16 01:10 keyword_extraction-master\result\vecs\wordvecs_8.csv
文件 196662 2018-01-16 01:10 keyword_extraction-master\result\vecs\wordvecs_9.csv
文件 2136 2018-01-16 01:10 keyword_extraction-master\词性标注参考.txt
相关资源
- Python-NLP之旅包含NLP文章代码集锦
- Python-python3实现互信息和左右熵的新词
- Python-全唐诗分析程序
- Python-pycorrector中文错别字纠正工具音
- Python-对四种句子文本相似度计算方法
- Python-爬取百度百科中文页面抽取三元
- Python-CCKS2017中文电子病例命名实体识
- Python-流行BERT模型的一个简单而完整的
- Python-这是GoogleBERT模型的一个Pytorch重
- Python-深度学习与自然语言处理知识图
- Python-2019年百度的三元组抽取比赛一个
- Python-基于TensorFlow和BERT的管道式实体
评论
共有 条评论