资源简介

matlab编写的文本分类的程序,可以对已经分好词的文本进行分类,先自己导入数据,用libsvm中的svm进行分类和预测,特征用tfidf算法,还利用卡方检验进行了特征选择,可自行设定阈值。

资源截图

代码片段和文件信息

%----wordtrain为每条视频分词后的标题
%----每次运行时,要导入wordtrain.txt文本
text=textread(‘wordtrain.txt‘‘%s‘);           %提取文本中的单词
stopword=textread(‘stopwordchinese.txt‘‘%s‘);   %提取stopword中的单词
[a]=worddictionary(textstopword);%a(13).word为所有出现过的并除去信用词词条
[counttfidfweight]=tfidf(wordtrain‘a(13).word);
model=svmtrain(wordtrain_labelweight‘-c 1 -g 0.07‘);

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件         281  2013-10-24 00:10  text classification\datatest.txt
     文件         337  2013-10-24 00:15  text classification\datatrain.txt
     文件         404  2013-10-24 17:08  text classification\extractwords.m
     文件          70  2013-10-23 22:46  text classification\inputchinese1.txt
     文件        9904  2013-10-23 20:52  text classification\porterStemmer.m
     文件        6364  2009-11-23 15:29  text classification\stopwordchinese.txt
     文件         239  2013-10-23 23:57  text classification\test.mat
     文件        2723  2013-10-23 17:21  text classification\tfidf.m
     文件        1547  2013-10-23 22:55  text classification\worddictionary.m
     文件         525  2013-10-24 21:08  text classification\wordpredict.asv
     文件         525  2013-10-24 09:20  text classification\wordpredict.m
     文件         358  2013-10-24 00:19  text classification\wordtest.txt
     文件         441  2013-10-24 00:22  text classification\wordtrain.txt
     文件         195  2013-10-24 08:51  text classification\wordtrain_label.mat
     文件       26967  2013-10-24 16:55  text classification\文本特征词提取步骤.docx
     文件         717  2013-10-23 23:30  text classification\新建 文本文档.txt

评论

共有 条评论