资源简介

k-means训练,数据,停用词,代码

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-
from os import listdir
import jieba
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
all_file = listdir(‘movie‘) #获取文件夹中所有文件名
labels = [] #用以存储电影名称
corpus = [] #空语料库
‘‘‘停用词的过滤‘‘‘
# typetxt = open(‘D:/Python_work/Data Mining/文本相似度计算/停用词.txt‘)
typetxt = open(‘data/文本相似度计算/停用词.txt‘)
texts = [‘\u3000‘‘\n‘‘ ‘] # 文本中未处理的特殊字符
‘‘‘停用词库的建立‘‘‘
for word in typetxt:
    word = word.strip()
    texts.append(word)
‘‘‘语料库的建立‘‘‘
for i in range(0len(all_file)):
    filename = all_file[i]
    filelabel = filename.split(‘.‘)[0]
    labels.append(filelabel)
    file_add = ‘movie/‘+ filename
    doc = open(file_addencoding=‘utf-8‘).read()
    data = jieba.cut(doc) #文本分词
    data_adj = ‘‘
    delete_word = []
    for item in data:
        if item not in texts: #停用词过滤
            data_adj += item+‘ ‘
        else:
            delete_word.append(item)
    corpus.append(data_adj) #语料库建立完成

# print(corpus)
vectorizer = CountVectorizer()
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
weight = tfidf.toarray() # 将tf-idf矩阵抽取出来,元素a[i][j]表示j词在i类文本中的tf-idf权重
# print(weight)
word = vectorizer.get_feature_names()
# print(word)
from sklearn.cluster import KMeans
mykms = KMeans(n_clusters=10)
y=mykms.fit_predict(weight)
for i in range(010):
    label_i=[]
    for j in range(0len(y)):
        if y[j]==i:
            label_i.append(labels[j])
    print(‘label_‘+str(i)+‘:‘+str(label_i))

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件      11199  2019-02-28 13:32  train_kmeans\data\文本相似度计算\停用词.txt

     文件       1835  2019-03-01 09:13  train_kmeans\jieba_k_means.py

     文件        835  2019-02-28 11:00  train_kmeans\movie\7号房的礼物 (豆瓣).txt

     文件        731  2019-02-28 11:02  train_kmeans\movie\E.T. 外星人 (豆瓣).txt

     文件        716  2019-02-28 10:59  train_kmeans\movie\V字仇杀队 (豆瓣).txt

     文件        751  2019-02-28 11:00  train_kmeans\movie\一一 (豆瓣).txt

     文件        866  2019-02-28 11:01  train_kmeans\movie\一个叫欧维的男人决定*** (豆瓣).txt

     文件       1016  2019-02-28 11:01  train_kmeans\movie\一次别离 (豆瓣).txt

     文件        846  2019-02-28 10:59  train_kmeans\movie\七宗罪 (豆瓣).txt

     文件        882  2019-02-28 11:00  train_kmeans\movie\七武士 (豆瓣).txt

     文件        897  2019-02-28 10:59  train_kmeans\movie\三傻大闹宝莱坞 (豆瓣).txt

     文件        842  2019-02-28 11:01  train_kmeans\movie\三块广告牌 (豆瓣).txt

     文件       1032  2019-02-28 11:00  train_kmeans\movie\上帝之城 (豆瓣).txt

     文件        873  2019-02-28 11:02  train_kmeans\movie\东京物语 (豆瓣).txt

     文件        819  2019-02-28 11:00  train_kmeans\movie\东邪西毒 (豆瓣).txt

     文件        859  2019-02-28 10:59  train_kmeans\movie\两杆大烟枪 (豆瓣).txt

     文件        889  2019-02-28 10:59  train_kmeans\movie\乱世佳人 (豆瓣).txt

     文件        404  2019-02-28 11:01  train_kmeans\movie\二十二 (豆瓣).txt

     文件       1043  2019-02-28 11:01  train_kmeans\movie\人工智能 (豆瓣).txt

     文件       1044  2019-02-28 11:00  train_kmeans\movie\低俗小说 (豆瓣).txt

     文件        919  2019-02-28 11:01  train_kmeans\movie\你的名字。 (豆瓣).txt

     文件        975  2019-02-28 11:01  train_kmeans\movie\你看起来好像很好吃 (豆瓣).txt

     文件        942  2019-02-28 11:00  train_kmeans\movie\侧耳倾听 (豆瓣).txt

     文件       1020  2019-02-28 11:00  train_kmeans\movie\借东西的小人阿莉埃蒂 (豆瓣).txt

     文件        522  2019-02-28 11:00  train_kmeans\movie\倩女幽魂 (豆瓣).txt

     文件        943  2019-02-28 11:01  train_kmeans\movie\傲慢与偏见 (豆瓣).txt

     文件        902  2019-02-28 11:00  train_kmeans\movie\入殓师 (豆瓣).txt

     文件        813  2019-02-28 11:01  train_kmeans\movie\再次出发之纽约遇见你 (豆瓣).txt

     文件        744  2019-02-28 11:01  train_kmeans\movie\冰川时代 (豆瓣).txt

     文件       1078  2019-02-28 11:02  train_kmeans\movie\初恋这件小事 (豆瓣).txt

............此处省略199个文件信息

评论

共有 条评论