资源简介
北邮计算机研一《数据挖掘》文本分类实验.zip
代码片段和文件信息
“““
Bog of Words
“““
import os
import numpy as np
from gensim import corpora
from loadFile import load_file
def build_dictionary(corpus len_dict dir=‘./data/‘):
“““
从语料中建立词典
:param corpus: 语料(分词之后的)
:param len_dict: 指定词典的大小
:param dir: 生成的词典将要保存的位置
:return: 词典对象
“““
if os.path.exists(‘{}dictionary{}.dict‘.format(dir len_dict)):
print(‘load exiting dictionary from {}bow{}.mm‘.format(dir len_dict))
dictionary = corpora.Dictionary.load(‘{}dictionary{}.dict‘.format(dir len_dict))
else:
dictionary = corpora.Dictionary(corpus)
dictionary.filter_extremes(keep_n=len_dict)
print(‘saving dictionary to {}dictionary{}.dict‘.format(dir len_dict))
dictionary.save(‘{}dictionary{}.dict‘.format(dir len_dict))
return dictionary
# ====================== Bag of Words =======================
def build_bow(corpus dictionary dir=‘./data/‘ suffix=‘train‘):
“““
通过下面一句得到语料中每一篇文档对应的稀疏向量(这里是bow向量) 即 词袋模型
向量的每一个元素代表了一个word在这篇文档中出现的次数
:param corpus: 语料
:param dictionary: 词典
:return: 词袋bow
“““
if os.path.exists(‘{}bow{}_{}.mm‘.format(dir len(dictionary) suffix)):
print(‘load exiting bow from {}bow{}_{}.mm‘.format(dir len(dictionary) suffix))
bow = corpora.MmCorpus(‘{}bow{}_{}.mm‘.format(dir len(dictionary) suffix))
else:
bow = [dictionary.doc2bow(doc) for doc in corpus]
print(‘saving bow to {}bow{}_{}.mm‘.format(dir len(dictionary) suffix))
corpora.MmCorpus.serialize(‘{}bow{}_{}.mm‘.format(dir len(dictionary) suffix) bow)
return bow
if __name__ == ‘__main__‘:
len_dictionary = 10000
x_train y_train x_test y_test = load_file(dir=‘./data/new_cuted_all_data/‘)
dictionary = build_dictionary(x_train len_dictionary)
train_bow = build_bow(x_train dictionary suffix=‘trian‘)
print(‘bow‘ type(train_bow) len(train_bow))
test_bow = build_bow(x_test dictionary suffix=‘test‘)
print(‘bow‘ type(test_bow) len(test_bow))
y_train = np.array(y_train)
np.save(‘./data/y_train.npy‘ y_train)
y_test = np.array(y_test)
np.save(‘./data/y_test.npy‘ y_test)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2019-09-06 02:44 DataMining-master\
文件 2395 2019-09-06 02:44 DataMining-master\BowGensim.py
目录 0 2019-09-06 02:44 DataMining-master\CNKI\
目录 0 2019-09-06 02:44 DataMining-master\CNKI\CNKI\
文件 0 2019-09-06 02:44 DataMining-master\CNKI\CNKI\__init__.py
文件 128 2019-09-06 02:44 DataMining-master\CNKI\CNKI\items.py
文件 6017 2019-09-06 02:44 DataMining-master\CNKI\CNKI\middlewares.py
文件 761 2019-09-06 02:44 DataMining-master\CNKI\CNKI\pipelines.py
文件 3174 2019-09-06 02:44 DataMining-master\CNKI\CNKI\settings.py
目录 0 2019-09-06 02:44 DataMining-master\CNKI\CNKI\spiders\
文件 161 2019-09-06 02:44 DataMining-master\CNKI\CNKI\spiders\__init__.py
文件 2911 2019-09-06 02:44 DataMining-master\CNKI\CNKI\spiders\spiders.py
文件 251 2019-09-06 02:44 DataMining-master\CNKI\scrapy.cfg
文件 969 2019-09-06 02:44 DataMining-master\NaiveBayes.py
文件 412 2019-09-06 02:44 DataMining-master\README.md
文件 1290 2019-09-06 02:44 DataMining-master\SVM.py
目录 0 2019-09-06 02:44 DataMining-master\data\
文件 580 2019-09-06 02:44 DataMining-master\data\readme.md
文件 1720 2019-09-06 02:44 DataMining-master\features.py
文件 1213 2019-09-06 02:44 DataMining-master\loadFile.py
目录 0 2019-09-06 02:44 DataMining-master\notebook\
文件 11221 2019-09-06 02:44 DataMining-master\notebook\report.ipynb
文件 115 2019-09-06 02:44 DataMining-master\requirements.txt
相关资源
- 数据挖掘概念与技术第三版课后答案
- 人工智能 期末论文
- 数据挖掘与机器学习——WEKA应用技术
- 西电数据挖掘作业之决策树和文本聚
- 数据挖掘挑战赛优秀作品
- 大数据挖掘算法代码
- 数据挖掘在电商领域的应用
- ( 高速数据链的挖掘算法——VFDT算法
- UCI数据集数据挖掘实验室数据
- 数据挖掘论文
- 数据挖掘报告,计算机专业学生
- 数据挖掘综述_王梦雪-副本.pdf
- 基于贝叶斯及KNN算法的newsgroup文本分
- 基于数据挖掘技术的WWW推荐系统设计
- Wine Data Set.rar( 数据挖掘 数据集 )
- 数据挖掘十大算法之C4.5详细终结版
- 数据挖掘大作业.docx
- 论文研究-不完备信息系统的数据挖掘
- 数据挖掘数据
- 数据仓库与数据挖掘技术期末考试 试
- 聚类技术---复杂网络社团检测
- 数据挖掘wine数据集分类实验报告及代
- 期末数据挖掘作业
- FP_Growth算法案例讲解和演示
- 遗传算法数据挖掘分类器
- 山大数据挖掘与数据仓库复习提纲
- GBM数据挖掘算法
- R语言数据挖掘案例
- 数据仓库与数据挖掘课程设计
- 数据挖掘Listnet
评论
共有 条评论