资源简介
k-means训练,数据,停用词,代码
![](http://www.nz998.com/pic/62944.jpg)
代码片段和文件信息
# -*- coding: utf-8 -*-
from os import listdir
import jieba
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
all_file = listdir(‘movie‘) #获取文件夹中所有文件名
labels = [] #用以存储电影名称
corpus = [] #空语料库
‘‘‘停用词的过滤‘‘‘
# typetxt = open(‘D:/Python_work/Data Mining/文本相似度计算/停用词.txt‘)
typetxt = open(‘data/文本相似度计算/停用词.txt‘)
texts = [‘\u3000‘‘\n‘‘ ‘] # 文本中未处理的特殊字符
‘‘‘停用词库的建立‘‘‘
for word in typetxt:
word = word.strip()
texts.append(word)
‘‘‘语料库的建立‘‘‘
for i in range(0len(all_file)):
filename = all_file[i]
filelabel = filename.split(‘.‘)[0]
labels.append(filelabel)
file_add = ‘movie/‘+ filename
doc = open(file_addencoding=‘utf-8‘).read()
data = jieba.cut(doc) #文本分词
data_adj = ‘‘
delete_word = []
for item in data:
if item not in texts: #停用词过滤
data_adj += item+‘ ‘
else:
delete_word.append(item)
corpus.append(data_adj) #语料库建立完成
# print(corpus)
vectorizer = CountVectorizer()
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
weight = tfidf.toarray() # 将tf-idf矩阵抽取出来,元素a[i][j]表示j词在i类文本中的tf-idf权重
# print(weight)
word = vectorizer.get_feature_names()
# print(word)
from sklearn.cluster import KMeans
mykms = KMeans(n_clusters=10)
y=mykms.fit_predict(weight)
for i in range(010):
label_i=[]
for j in range(0len(y)):
if y[j]==i:
label_i.append(labels[j])
print(‘label_‘+str(i)+‘:‘+str(label_i))
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 11199 2019-02-28 13:32 train_kmeans\data\文本相似度计算\停用词.txt
文件 1835 2019-03-01 09:13 train_kmeans\jieba_k_means.py
文件 835 2019-02-28 11:00 train_kmeans\movie\7号房的礼物 (豆瓣).txt
文件 731 2019-02-28 11:02 train_kmeans\movie\E.T. 外星人 (豆瓣).txt
文件 716 2019-02-28 10:59 train_kmeans\movie\V字仇杀队 (豆瓣).txt
文件 751 2019-02-28 11:00 train_kmeans\movie\一一 (豆瓣).txt
文件 866 2019-02-28 11:01 train_kmeans\movie\一个叫欧维的男人决定*** (豆瓣).txt
文件 1016 2019-02-28 11:01 train_kmeans\movie\一次别离 (豆瓣).txt
文件 846 2019-02-28 10:59 train_kmeans\movie\七宗罪 (豆瓣).txt
文件 882 2019-02-28 11:00 train_kmeans\movie\七武士 (豆瓣).txt
文件 897 2019-02-28 10:59 train_kmeans\movie\三傻大闹宝莱坞 (豆瓣).txt
文件 842 2019-02-28 11:01 train_kmeans\movie\三块广告牌 (豆瓣).txt
文件 1032 2019-02-28 11:00 train_kmeans\movie\上帝之城 (豆瓣).txt
文件 873 2019-02-28 11:02 train_kmeans\movie\东京物语 (豆瓣).txt
文件 819 2019-02-28 11:00 train_kmeans\movie\东邪西毒 (豆瓣).txt
文件 859 2019-02-28 10:59 train_kmeans\movie\两杆大烟枪 (豆瓣).txt
文件 889 2019-02-28 10:59 train_kmeans\movie\乱世佳人 (豆瓣).txt
文件 404 2019-02-28 11:01 train_kmeans\movie\二十二 (豆瓣).txt
文件 1043 2019-02-28 11:01 train_kmeans\movie\人工智能 (豆瓣).txt
文件 1044 2019-02-28 11:00 train_kmeans\movie\低俗小说 (豆瓣).txt
文件 919 2019-02-28 11:01 train_kmeans\movie\你的名字。 (豆瓣).txt
文件 975 2019-02-28 11:01 train_kmeans\movie\你看起来好像很好吃 (豆瓣).txt
文件 942 2019-02-28 11:00 train_kmeans\movie\侧耳倾听 (豆瓣).txt
文件 1020 2019-02-28 11:00 train_kmeans\movie\借东西的小人阿莉埃蒂 (豆瓣).txt
文件 522 2019-02-28 11:00 train_kmeans\movie\倩女幽魂 (豆瓣).txt
文件 943 2019-02-28 11:01 train_kmeans\movie\傲慢与偏见 (豆瓣).txt
文件 902 2019-02-28 11:00 train_kmeans\movie\入殓师 (豆瓣).txt
文件 813 2019-02-28 11:01 train_kmeans\movie\再次出发之纽约遇见你 (豆瓣).txt
文件 744 2019-02-28 11:01 train_kmeans\movie\冰川时代 (豆瓣).txt
文件 1078 2019-02-28 11:02 train_kmeans\movie\初恋这件小事 (豆瓣).txt
............此处省略199个文件信息
- 上一篇:endianness.h
- 下一篇:基于GXworks2的电镀流水线PLC控制程序
相关资源
- 随机森林R语言代码
- 计算机图形学 边填充算法实现代码
- oracle数据迁移项目实施方案
- 直流无刷电机方波驱动 stm32 例程代码
- ACCESS财务报表(带数据).accdb
- 仿知乎界面小程序源代码
- 贪吃蛇源代码.fla
- 周立功开发板ProASIC3实验-syn_FIFO代码
- IMX385驱动代码.zip
- MoNyog8.5+破解补丁
- ANSYS LS-DYNA
- 金蝶K3wise数据字典
-
大数据。基于Hba
se的网站日志分析系 - SigmaPlot教程之各种柱形图的数据排列
- 全国4级地址库,京东数据
- CASS9.1最新S4数据及驱动+ET199数据及驱
- dotnet 写字板 实验 源代码 不好请要不
- 一个超简单的企业管理系统(带ACCE
- 数据结构年终考题范围和答案 耿国华
- 图像二维小波变换的实现源代码
- 八三编码器设计 VHDL代码 简单,包附
- linux应用层的华容道游戏源代码
- 交通咨询模拟系统完整代码
- http请求状态代码
- 数据库课设:图书管理系统报告
- 数值分析所有实验代码
- 数据结构 朱战力 习题解答 数据结构
- 介绍几种压缩算法及《笨笨数据压缩
- 网上拍卖系统完整源代码
- Tomcat中配置数据源所需得jar包
评论
共有 条评论