• 大小: 1.24MB
    文件类型: .rar
    金币: 1
    下载: 0 次
    发布日期: 2021-01-06
  • 语言: Python
  • 标签:

资源简介

花了4天时间写的,很麻烦,使用的是python3版本,自己编写的,能够完美运行,只需要运行主程序就行,数据啥的都准备好了

资源截图

代码片段和文件信息

import numpy as np
import jieba
import jieba.analyse
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer


def get_keywords(num_data):
    
    wordslist=[]
    for i in range(num_data):  #‘/tmp/hello
        with open(‘新闻汇总0-299/%s.txt‘%i‘r‘) as f:
            st =str()
            data =f.readlines()[0] #【0】代表列表的字符串形式给data
            keywords = jieba.analyse.extract_tags(data topK=500
                                                   withWeight=True allowPOS=(‘n‘‘nr‘‘ns‘))#对字符串data进行语义分析提取关键字和词频
            #print(keywords)
            if len(keywords)<20: #爬取的内容之中有个别是标题,提取关键词的时候不足20个,省略
               # print(‘内容不足20个字,省去,继续下一步......‘)
                continue
            
            for e

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件       3561  2017-11-07 21:36  网页聚类算法\原始语料库\中国国内新闻0-81\0.txt

     文件         46  2017-11-07 21:36  网页聚类算法\原始语料库\中国国内新闻0-81\1.txt

     文件       4385  2017-11-07 21:36  网页聚类算法\原始语料库\中国国内新闻0-81\10.txt

     文件        455  2017-11-07 21:36  网页聚类算法\原始语料库\中国国内新闻0-81\11.txt

     文件        961  2017-11-07 21:36  网页聚类算法\原始语料库\中国国内新闻0-81\12.txt

     文件       3163  2017-11-07 21:36  网页聚类算法\原始语料库\中国国内新闻0-81\13.txt

     文件       1801  2017-11-07 21:36  网页聚类算法\原始语料库\中国国内新闻0-81\14.txt

     文件        367  2017-11-07 21:36  网页聚类算法\原始语料库\中国国内新闻0-81\15.txt

     文件       1170  2017-11-07 21:36  网页聚类算法\原始语料库\中国国内新闻0-81\16.txt

     文件       2918  2017-11-07 21:36  网页聚类算法\原始语料库\中国国内新闻0-81\17.txt

     文件      16524  2017-11-07 21:36  网页聚类算法\原始语料库\中国国内新闻0-81\18.txt

     文件        146  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\19.txt

     文件       5040  2017-11-07 21:36  网页聚类算法\原始语料库\中国国内新闻0-81\2.txt

     文件       3561  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\20.txt

     文件       3047  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\21.txt

     文件         51  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\22.txt

     文件         55  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\23.txt

     文件       1599  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\24.txt

     文件       1020  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\25.txt

     文件         53  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\26.txt

     文件       1480  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\27.txt

     文件       1612  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\28.txt

     文件       1262  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\29.txt

     文件       1845  2017-11-07 21:36  网页聚类算法\原始语料库\中国国内新闻0-81\3.txt

     文件       1678  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\30.txt

     文件        643  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\31.txt

     文件       1031  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\32.txt

     文件       3117  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\33.txt

     文件         53  2017-11-07 21:37  网页聚类算法\原始语料库\中国国内新闻0-81\34.txt

     文件          0  2017-09-11 10:49  网页聚类算法\原始语料库\中国国内新闻0-81\35.txt

............此处省略891个文件信息

评论

共有 条评论