• 大小: 888KB
    文件类型: .zip
    金币: 2
    下载: 1 次
    发布日期: 2021-05-28
  • 语言: Python
  • 标签:

资源简介

利用Python实现中文文本关键词抽取,分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法。

资源截图

代码片段和文件信息

#!/usr/bin/python
# coding=utf-8
# 采用TextRank方法提取文本关键词
import sys
import pandas as pd
import jieba.analyse
“““
       TextRank权重:

            1、将待抽取关键词的文本进行分词、去停用词、筛选词性
            2、以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图
            3、计算图中节点的PageRank,注意是无向带权图
“““

# 处理标题和摘要,提取关键词
def getKeywords_textrank(datatopK):
    idListtitleListabstractList = data[‘id‘]data[‘title‘]data[‘abstract‘]
    ids titles keys = [] [] []
    for index in range(len(idList)):
        text = ‘%s。%s‘ % (titleList[index] abstractList[index]) # 拼接标题和摘要
        jieba.analyse.set_stop_words(“data/stopWord.txt“) # 加载自定义停用词表
        print “\““titleList[index]“\““  “ 10 Keywords - TextRank :“
        keywords = jieba.analyse.textrank(text topK=topK allowPOS=(‘n‘‘nz‘‘v‘‘vd‘‘vn‘‘l‘‘a‘‘d‘))  # TextRank关键词提取,词性筛选
        word_split = “ “.join(keywords)
        print word_split
        keys.append(word_split.encode(“utf-8“))
        ids.append(idList[index])
        titles.append(titleList[index])

    result = pd.Dataframe({“id“: ids “title“: titles “key“: keys} columns=[‘id‘ ‘title‘ ‘key‘])
    return result

def main():
    dataFile = ‘data/sample_data.csv‘
    data = pd.read_csv(dataFile)
    result = getKeywords_textrank(data10)
    result.to_csv(“result/keys_TextRank.csv“index=False)

if __name__ == ‘__main__‘:
    main()

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-01-16 01:10  keyword_extraction-master\
     文件       22135  2018-01-16 01:10  keyword_extraction-master\README.md
     目录           0  2018-01-16 01:10  keyword_extraction-master\data\
     文件        6782  2018-01-16 01:10  keyword_extraction-master\data\sample_data.csv
     文件        9373  2018-01-16 01:10  keyword_extraction-master\data\stopWord.txt
     文件        1638  2018-01-16 01:10  keyword_extraction-master\keyextract_textrank.py
     文件        3722  2018-01-16 01:10  keyword_extraction-master\keyextract_tfidf.py
     文件        2686  2018-01-16 01:10  keyword_extraction-master\keyextract_word2vec_1.py
     文件        4045  2018-01-16 01:10  keyword_extraction-master\keyextract_word2vec_2.py
     目录           0  2018-01-16 01:10  keyword_extraction-master\result\
     文件        1130  2018-01-16 01:10  keyword_extraction-master\result\keys_TFIDF.csv
     文件        1130  2018-01-16 01:10  keyword_extraction-master\result\keys_TextRank.csv
     文件        1133  2018-01-16 01:10  keyword_extraction-master\result\keys_word2vec.csv
     目录           0  2018-01-16 01:10  keyword_extraction-master\result\vecs\
     文件      375478  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_1.csv
     文件      141841  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_10.csv
     文件      184382  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_2.csv
     文件      154035  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_3.csv
     文件      154759  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_4.csv
     文件      263297  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_5.csv
     文件      160204  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_6.csv
     文件      136095  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_7.csv
     文件      185739  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_8.csv
     文件      196662  2018-01-16 01:10  keyword_extraction-master\result\vecs\wordvecs_9.csv
     文件        2136  2018-01-16 01:10  keyword_extraction-master\词性标注参考.txt

评论

共有 条评论