k-means训练

大小: 155KB

文件类型: .rar

金币: 2

下载: 0 次

发布日期: 2021-05-13
语言: 其他
标签: 数据代码 停用词 python

高速下载

资源简介

k-means训练，数据，停用词，代码

资源截图

小图大图

代码片段和文件信息

# -*- coding: utf-8 -*-
from os import listdir
import jieba
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
all_file = listdir（‘movie‘） #获取文件夹中所有文件名
labels = [] #用以存储电影名称
corpus = [] #空语料库
‘‘‘停用词的过滤‘‘‘
# typetxt = open（‘D:/Python_work/Data Mining/文本相似度计算/停用词.txt‘）
typetxt = open（‘data/文本相似度计算/停用词.txt‘）
texts = [‘\u3000‘‘\n‘‘ ‘] # 文本中未处理的特殊字符
‘‘‘停用词库的建立‘‘‘
for word in typetxt:
    word = word.strip（）
    texts.append（word）
‘‘‘语料库的建立‘‘‘
for i in range（0len（all_file））:
    filename = all_file[i]
    filelabel = filename.split（‘.‘）[0]
    labels.append（filelabel）
    file_add = ‘movie/‘+ filename
    doc = open（file_addencoding=‘utf-8‘）.read（）
    data = jieba.cut（doc） #文本分词
    data_adj = ‘‘
    delete_word = []
    for item in data:
        if item not in texts: #停用词过滤
            data_adj += item+‘ ‘
        else:
            delete_word.append（item）
    corpus.append（data_adj） #语料库建立完成

# print（corpus）
vectorizer = CountVectorizer（）
transformer = TfidfTransformer（）
tfidf = transformer.fit_transform（vectorizer.fit_transform（corpus））
weight = tfidf.toarray（） # 将tf-idf矩阵抽取出来，元素a[i][j]表示j词在i类文本中的tf-idf权重
# print（weight）
word = vectorizer.get_feature_names（）
# print（word）
from sklearn.cluster import KMeans
mykms = KMeans（n_clusters=10）
y=mykms.fit_predict（weight）
for i in range（010）:
    label_i=[]
    for j in range（0len（y））:
        if y[j]==i:
            label_i.append（labels[j]）
    print（‘label_‘+str（i）+‘:‘+str（label_i））

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件      11199  2019-02-28 13:32  train_kmeans\data\文本相似度计算\停用词.txt

     文件       1835  2019-03-01 09:13  train_kmeans\jieba_k_means.py

     文件        835  2019-02-28 11:00  train_kmeans\movie\7号房的礼物（豆瓣）.txt

     文件        731  2019-02-28 11:02  train_kmeans\movie\E.T. 外星人（豆瓣）.txt

     文件        716  2019-02-28 10:59  train_kmeans\movie\V字仇杀队（豆瓣）.txt

     文件        751  2019-02-28 11:00  train_kmeans\movie\一一（豆瓣）.txt

     文件        866  2019-02-28 11:01  train_kmeans\movie\一个叫欧维的男人决定*** （豆瓣）.txt

     文件       1016  2019-02-28 11:01  train_kmeans\movie\一次别离（豆瓣）.txt

     文件        846  2019-02-28 10:59  train_kmeans\movie\七宗罪（豆瓣）.txt

     文件        882  2019-02-28 11:00  train_kmeans\movie\七武士（豆瓣）.txt

     文件        897  2019-02-28 10:59  train_kmeans\movie\三傻大闹宝莱坞（豆瓣）.txt

     文件        842  2019-02-28 11:01  train_kmeans\movie\三块广告牌（豆瓣）.txt

     文件       1032  2019-02-28 11:00  train_kmeans\movie\上帝之城（豆瓣）.txt

     文件        873  2019-02-28 11:02  train_kmeans\movie\东京物语（豆瓣）.txt

     文件        819  2019-02-28 11:00  train_kmeans\movie\东邪西毒（豆瓣）.txt

     文件        859  2019-02-28 10:59  train_kmeans\movie\两杆大烟枪（豆瓣）.txt

     文件        889  2019-02-28 10:59  train_kmeans\movie\乱世佳人（豆瓣）.txt

     文件        404  2019-02-28 11:01  train_kmeans\movie\二十二（豆瓣）.txt

     文件       1043  2019-02-28 11:01  train_kmeans\movie\人工智能（豆瓣）.txt

     文件       1044  2019-02-28 11:00  train_kmeans\movie\低俗小说（豆瓣）.txt

     文件        919  2019-02-28 11:01  train_kmeans\movie\你的名字。（豆瓣）.txt

     文件        975  2019-02-28 11:01  train_kmeans\movie\你看起来好像很好吃（豆瓣）.txt

     文件        942  2019-02-28 11:00  train_kmeans\movie\侧耳倾听（豆瓣）.txt

     文件       1020  2019-02-28 11:00  train_kmeans\movie\借东西的小人阿莉埃蒂（豆瓣）.txt

     文件        522  2019-02-28 11:00  train_kmeans\movie\倩女幽魂（豆瓣）.txt

     文件        943  2019-02-28 11:01  train_kmeans\movie\傲慢与偏见（豆瓣）.txt

     文件        902  2019-02-28 11:00  train_kmeans\movie\入殓师（豆瓣）.txt

     文件        813  2019-02-28 11:01  train_kmeans\movie\再次出发之纽约遇见你（豆瓣）.txt

     文件        744  2019-02-28 11:01  train_kmeans\movie\冰川时代（豆瓣）.txt

     文件       1078  2019-02-28 11:02  train_kmeans\movie\初恋这件小事（豆瓣）.txt

............此处省略199个文件信息

上一篇：endianness.h
下一篇：基于GXworks2的电镀流水线PLC控制程序

共有条评论

k-means训练

资源简介

资源截图

代码片段和文件信息

评论

相关资源