资源简介
k-means训练,数据,停用词,代码
代码片段和文件信息
# -*- coding: utf-8 -*-
from os import listdir
import jieba
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
all_file = listdir(‘movie‘) #获取文件夹中所有文件名
labels = [] #用以存储电影名称
corpus = [] #空语料库
‘‘‘停用词的过滤‘‘‘
# typetxt = open(‘D:/Python_work/Data Mining/文本相似度计算/停用词.txt‘)
typetxt = open(‘data/文本相似度计算/停用词.txt‘)
texts = [‘\u3000‘‘\n‘‘ ‘] # 文本中未处理的特殊字符
‘‘‘停用词库的建立‘‘‘
for word in typetxt:
word = word.strip()
texts.append(word)
‘‘‘语料库的建立‘‘‘
for i in range(0len(all_file)):
filename = all_file[i]
filelabel = filename.split(‘.‘)[0]
labels.append(filelabel)
file_add = ‘movie/‘+ filename
doc = open(file_addencoding=‘utf-8‘).read()
data = jieba.cut(doc) #文本分词
data_adj = ‘‘
delete_word = []
for item in data:
if item not in texts: #停用词过滤
data_adj += item+‘ ‘
else:
delete_word.append(item)
corpus.append(data_adj) #语料库建立完成
# print(corpus)
vectorizer = CountVectorizer()
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
weight = tfidf.toarray() # 将tf-idf矩阵抽取出来,元素a[i][j]表示j词在i类文本中的tf-idf权重
# print(weight)
word = vectorizer.get_feature_names()
# print(word)
from sklearn.cluster import KMeans
mykms = KMeans(n_clusters=10)
y=mykms.fit_predict(weight)
for i in range(010):
label_i=[]
for j in range(0len(y)):
if y[j]==i:
label_i.append(labels[j])
print(‘label_‘+str(i)+‘:‘+str(label_i))
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 11199 2019-02-28 13:32 train_kmeans\data\文本相似度计算\停用词.txt
文件 1835 2019-03-01 09:13 train_kmeans\jieba_k_means.py
文件 835 2019-02-28 11:00 train_kmeans\movie\7号房的礼物 (豆瓣).txt
文件 731 2019-02-28 11:02 train_kmeans\movie\E.T. 外星人 (豆瓣).txt
文件 716 2019-02-28 10:59 train_kmeans\movie\V字仇杀队 (豆瓣).txt
文件 751 2019-02-28 11:00 train_kmeans\movie\一一 (豆瓣).txt
文件 866 2019-02-28 11:01 train_kmeans\movie\一个叫欧维的男人决定*** (豆瓣).txt
文件 1016 2019-02-28 11:01 train_kmeans\movie\一次别离 (豆瓣).txt
文件 846 2019-02-28 10:59 train_kmeans\movie\七宗罪 (豆瓣).txt
文件 882 2019-02-28 11:00 train_kmeans\movie\七武士 (豆瓣).txt
文件 897 2019-02-28 10:59 train_kmeans\movie\三傻大闹宝莱坞 (豆瓣).txt
文件 842 2019-02-28 11:01 train_kmeans\movie\三块广告牌 (豆瓣).txt
文件 1032 2019-02-28 11:00 train_kmeans\movie\上帝之城 (豆瓣).txt
文件 873 2019-02-28 11:02 train_kmeans\movie\东京物语 (豆瓣).txt
文件 819 2019-02-28 11:00 train_kmeans\movie\东邪西毒 (豆瓣).txt
文件 859 2019-02-28 10:59 train_kmeans\movie\两杆大烟枪 (豆瓣).txt
文件 889 2019-02-28 10:59 train_kmeans\movie\乱世佳人 (豆瓣).txt
文件 404 2019-02-28 11:01 train_kmeans\movie\二十二 (豆瓣).txt
文件 1043 2019-02-28 11:01 train_kmeans\movie\人工智能 (豆瓣).txt
文件 1044 2019-02-28 11:00 train_kmeans\movie\低俗小说 (豆瓣).txt
文件 919 2019-02-28 11:01 train_kmeans\movie\你的名字。 (豆瓣).txt
文件 975 2019-02-28 11:01 train_kmeans\movie\你看起来好像很好吃 (豆瓣).txt
文件 942 2019-02-28 11:00 train_kmeans\movie\侧耳倾听 (豆瓣).txt
文件 1020 2019-02-28 11:00 train_kmeans\movie\借东西的小人阿莉埃蒂 (豆瓣).txt
文件 522 2019-02-28 11:00 train_kmeans\movie\倩女幽魂 (豆瓣).txt
文件 943 2019-02-28 11:01 train_kmeans\movie\傲慢与偏见 (豆瓣).txt
文件 902 2019-02-28 11:00 train_kmeans\movie\入殓师 (豆瓣).txt
文件 813 2019-02-28 11:01 train_kmeans\movie\再次出发之纽约遇见你 (豆瓣).txt
文件 744 2019-02-28 11:01 train_kmeans\movie\冰川时代 (豆瓣).txt
文件 1078 2019-02-28 11:02 train_kmeans\movie\初恋这件小事 (豆瓣).txt
............此处省略199个文件信息
- 上一篇:endianness.h
- 下一篇:基于GXworks2的电镀流水线PLC控制程序
相关资源
- 玩转数据结构从入门到进阶.txt
- 留言墙微信小程序,初学云开发实现
- 51流水灯仿真加代码
- 东北大学软件体系与结构四次实验源
- 数据结构与算法课程设计五子棋
- 新编数据库原理习题与解析 李春葆
- studentsdb.zip
- stm32f1对MLX90614ESF读取数据
- Qt纯代码记事本.zip
- 用于通信的4PPM编码verilog代码
- LSTM+CRF模型项包含完整代码
- 2019-2020_南京大学计算机系数据库期末
- 2018-2019_南京大学计算机系数据库期末
- 用二叉树表示家谱关系并实现各种查
- 欧洲智能技术网络(EUNITE)举办的电
- spring boot 登陆注册的全部代码。
- 图基本操作的编程实现源码
- 数据挖掘wine数据集分类实验报告及代
- 基于FPGA实现AD转换的verilog代码
- LORA实现收发,SX1278+STM32F103
- 2016山东省NOI省队集训DAY4 题目题解数
- 基于卡尔曼滤波的SOC估算模型
- 电力变压器原数据.rar
- 粒子群算法PSO和万有引力算法GSA结合
- LDPC的FPGA代码
- Web实现随机打猎小游戏源代码
- IDL实现对数据的批处理
- 2018年恩智浦智能车大赛电磁组程序
- 马尔可夫链状态空间的分解实验报告
- 疝气病数据集逻辑回归
评论
共有 条评论