Python-利用Python实现中文文本关键词抽取分别采用TFIDFTextRankWord2Vec词聚类三种方法

大小: 888KB

文件类型: .zip

金币: 2

下载: 1 次

发布日期: 2021-05-28
语言: Python
标签:

高速下载

资源简介

利用Python实现中文文本关键词抽取，分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法。

资源截图

小图大图

代码片段和文件信息

#!/usr/bin/python
# coding=utf-8
# 采用TextRank方法提取文本关键词
import sys
import pandas as pd
import jieba.analyse
“““
       TextRank权重：

            1、将待抽取关键词的文本进行分词、去停用词、筛选词性
            2、以固定窗口大小（默认为5，通过span属性调整），词之间的共现关系，构建图
            3、计算图中节点的PageRank，注意是无向带权图
“““

# 处理标题和摘要，提取关键词
def getKeywords_textrank（datatopK）:
    idListtitleListabstractList = data[‘id‘]data[‘title‘]data[‘abstract‘]
    ids titles keys = [] [] []
    for index in range（len（idList））:
        text = ‘%s。%s‘ % （titleList[index] abstractList[index]） # 拼接标题和摘要
        jieba.analyse.set_stop_words（“data/stopWord.txt“） # 加载自定义停用词表
        print “\““titleList[index]“\““  “ 10 Keywords - TextRank :“
        keywords = jieba.analyse.textrank（text topK=topK allowPOS=（‘n‘‘nz‘‘v‘‘vd‘‘vn‘‘l‘‘a‘‘d‘））  # TextRank关键词提取，词性筛选
        word_split = “ “.join（keywords）
        print word_split
        keys.append（word_split.encode（“utf-8“））
        ids.append（idList[index]）
        titles.append（titleList[index]）

    result = pd.Dataframe（{“id“: ids “title“: titles “key“: keys} columns=[‘id‘ ‘title‘ ‘key‘]）
    return result

def main（）:
    dataFile = ‘data/sample_data.csv‘
    data = pd.read_csv（dataFile）
    result = getKeywords_textrank（data10）
    result.to_csv（“result/keys_TextRank.csv“index=False）

if __name__ == ‘__main__‘:
    main（）

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-01-16 01:10  keyword_extraction-master\
     文件       22135  2018-01-16 01:10  keyword_extraction-master\README.md
     目录           0  2018-01-16 01:10  keyword_extraction-master\data\
     文件        6782  2018-01-16 01:10  keyword_extraction-master\data\sample_data.csv
     文件        9373  2018-01-16 01:10  keyword_extraction-master\data\stopWord.txt
     文件        1638  2018-01-16 01:10  keyword_extraction-master\keyextract_textrank.py
     文件        3722  2018-01-16 01:10  keyword_extraction-master\keyextract_tfidf.py
     文件        2686  2018-01-16 01:10  keyword_extraction-master\keyextract_word2vec_1.py
     文件        4045  2018-01-16 01:10  keyword_extraction-master\keyextract_word2vec_2.py
     目录           0  2018-01-16 01:10  keyword_extraction-master\result\
     文件        1130  2018-01-16 01:10  keyword_extraction-master\result\keys_TFIDF.csv
     文件        1130  2018-01-16 01:10  keyword_extraction-master\result\keys_TextRank.csv
     文件        1133  2018-01-16 01:10  keyword_extraction-master\result\keys_word2vec.csv
     目录           0  2018-01-16 01:10  keyword_extraction-master\result\vecs\
     文件      375478  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_1.csv
     文件      141841  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_10.csv
     文件      184382  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_2.csv
     文件      154035  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_3.csv
     文件      154759  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_4.csv
     文件      263297  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_5.csv
     文件      160204  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_6.csv
     文件      136095  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_7.csv
     文件      185739  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_8.csv
     文件      196662  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_9.csv
     文件        2136  2018-01-16 01:10  keyword_extraction-master\词性标注参考.txt

上一篇：Python-一个WindowsLinux和Mac的简单键盘记录器
下一篇：Python-利用flask搭建的一个简单的个人博客网站

共有条评论

Python-利用Python实现中文文本关键词抽取分别采用TFIDFTextRankWord2Vec词聚类三种方法

资源简介

资源截图

代码片段和文件信息

评论

相关资源