资源简介
简书代码
代码片段和文件信息
#进行文档分类(应用版)
from matplotlib import pyplot
import scipy as sp
import numpy as np
import os
from sklearn import datasets
from sklearn.datasets import load_files
from sklearn.cross_validation import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import classification_report
#计算指定目录下含有的文件个数
path1 = “D:\\phpspider-master\\OperationMySQL\\operation1“
path2 = “D:\\phpspider-master\\OperationMySQL\\mainoperation“
ls1 = os.listdir(path1)
ls2 = os.listdir(path2)
count1 = 0
count2 = 0
for i in ls1:
if os.path.isfile(os.path.join(path1i)):
count1 += 1
for j in ls2:
if os.path.isfile(os.path.join(path2j)):
count2 += 1
twenty_train = load_files(“D:/phpspider-master/OperationMySQL/result4“)
vectorizer=CountVectorizer(decode_error = ‘ignore‘)#该类用于将文本中的词语转换为词频矩阵,矩阵元素a[i][j] 表示j词在i类文本下的词频
transformer=TfidfTransformer()#该类用于统计每个词语的tf-idf权值
tfidf=transformer.fit_transform(vectorizer.fit_transform(twenty_train.data))#第一个fit_transform是计算tf-idf,第二个fit_transform是将文本转为词频矩阵
#调用MultinomialNB分类器
clf = MultinomialNB().fit(tfidftwenty_train.target)
# 对新的样本进行预测
for i in range(count2+1count1+1):
f=open(“D:\\phpspider-master\\OperationMySQL\\operation5\\%d.txt“ % (i)“r“encoding=‘utf-8‘) #读取文本
p = f.read()
docs_new=[]
docs_new.append(p)
X_new_counts = vectorizer.transform(docs_new)
X_new_tfidf = transformer.transform(X_new_counts)
predicted = clf.predict(X_new_tfidf)#预测输入内容的类别
for doccategory in zip(docs_newpredicted):
print(twenty_train.target_names[category])
‘‘‘
if((twenty_train.target_names[category])== ‘1‘):
print(“呵呵,如果我猜的没错刚才我读了一篇---《财经》---类文章“)
elif((twenty_train.target_names[category])== ‘2‘):
print(“呵呵,如果我猜的没错刚才我读了一篇---《IT》---类文章“)
elif((twenty_train.target_names[category])== ‘3‘):
print(“呵呵,如果我猜的没错刚才我读了一篇---《健康》---类文章“)
elif((twenty_train.target_names[category])== ‘4‘):
print(“呵呵,如果我猜的没错刚才我读了一篇---《体育》---类文章“)
elif((twenty_train.target_names[category])== ‘5‘):
print(“呵呵,如果我猜的没错刚才我读了一篇---《旅游》---类文章“)
elif((twenty_train.target_names[category])== ‘6‘):
print(“呵呵,如果我猜的没错刚才我读了一篇---《教育》---类文章“)
elif((twenty_train.target_names[category])== ‘7‘):
print(“呵呵,如果我猜的没错刚才我读了一篇---《招聘》---类文章“)
elif((twenty_train.target_names[category])== ‘8‘):
print(“呵呵,如果我猜的没错刚才我读了一篇---《文化》---类文章“)
else:
print(“呵呵,如果我猜的没错刚才我读了一篇---《军事》---类文章“)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 7445 2017-05-19 13:44 相关代码\Most_powerful.py
文件 3698 2017-05-19 10:33 相关代码\collect.py
文件 4805 2017-05-26 18:58 相关代码\operation.php
文件 314 2017-05-18 10:01 相关代码\operationtemp.php
文件 1850 2017-05-18 22:37 相关代码\similarity_calculation.py
文件 77144 2017-05-06 09:13 相关代码\stopword.txt
目录 0 2017-07-06 11:56 相关代码\
- 上一篇:socket,多线程实现群聊
- 下一篇:银行管理系统源代码
评论
共有 条评论