资源简介
花了4天时间写的,很麻烦,使用的是python3版本,自己编写的,能够完美运行,只需要运行主程序就行,数据啥的都准备好了
代码片段和文件信息
import numpy as np
import jieba
import jieba.analyse
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
def get_keywords(num_data):
wordslist=[]
for i in range(num_data): #‘/tmp/hello
with open(‘新闻汇总0-299/%s.txt‘%i‘r‘) as f:
st =str()
data =f.readlines()[0] #【0】代表列表的字符串形式给data
keywords = jieba.analyse.extract_tags(data topK=500
withWeight=True allowPOS=(‘n‘‘nr‘‘ns‘))#对字符串data进行语义分析提取关键字和词频
#print(keywords)
if len(keywords)<20: #爬取的内容之中有个别是标题,提取关键词的时候不足20个,省略
# print(‘内容不足20个字,省去,继续下一步......‘)
continue
for e
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 3561 2017-11-07 21:36 网页聚类算法\原始语料库\中国国内新闻0-81\0.txt
文件 46 2017-11-07 21:36 网页聚类算法\原始语料库\中国国内新闻0-81\1.txt
文件 4385 2017-11-07 21:36 网页聚类算法\原始语料库\中国国内新闻0-81\10.txt
文件 455 2017-11-07 21:36 网页聚类算法\原始语料库\中国国内新闻0-81\11.txt
文件 961 2017-11-07 21:36 网页聚类算法\原始语料库\中国国内新闻0-81\12.txt
文件 3163 2017-11-07 21:36 网页聚类算法\原始语料库\中国国内新闻0-81\13.txt
文件 1801 2017-11-07 21:36 网页聚类算法\原始语料库\中国国内新闻0-81\14.txt
文件 367 2017-11-07 21:36 网页聚类算法\原始语料库\中国国内新闻0-81\15.txt
文件 1170 2017-11-07 21:36 网页聚类算法\原始语料库\中国国内新闻0-81\16.txt
文件 2918 2017-11-07 21:36 网页聚类算法\原始语料库\中国国内新闻0-81\17.txt
文件 16524 2017-11-07 21:36 网页聚类算法\原始语料库\中国国内新闻0-81\18.txt
文件 146 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\19.txt
文件 5040 2017-11-07 21:36 网页聚类算法\原始语料库\中国国内新闻0-81\2.txt
文件 3561 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\20.txt
文件 3047 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\21.txt
文件 51 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\22.txt
文件 55 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\23.txt
文件 1599 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\24.txt
文件 1020 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\25.txt
文件 53 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\26.txt
文件 1480 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\27.txt
文件 1612 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\28.txt
文件 1262 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\29.txt
文件 1845 2017-11-07 21:36 网页聚类算法\原始语料库\中国国内新闻0-81\3.txt
文件 1678 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\30.txt
文件 643 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\31.txt
文件 1031 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\32.txt
文件 3117 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\33.txt
文件 53 2017-11-07 21:37 网页聚类算法\原始语料库\中国国内新闻0-81\34.txt
文件 0 2017-09-11 10:49 网页聚类算法\原始语料库\中国国内新闻0-81\35.txt
............此处省略891个文件信息
评论
共有 条评论