• 大小:
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-07-02
  • 语言: Matlab
  • 标签: 文本聚类  matlab  

资源简介

基于停用词的文本预处理及其聚类(matlab)

资源截图

代码片段和文件信息

clear;
doc_N=20;  %前N篇文章
%%%%%%%%%%%%%%%考虑词性预处理
stopwords_table= textread(‘.\stopwords.txt‘‘%s‘‘delimiter‘‘\n‘‘whitespace‘‘‘);%读取停用词表


%读取预处理的文本
pre=cell(1doc_N);term=[];prePosTag=cell(1doc_N);j=1;
for i=10:(10+doc_N-1)
    %path=[‘.\实验文本\编程小文本测试\spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
    path=[‘.\实验文本\训练文本\C000008\spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
    file=textread(path‘%s‘‘whitespace‘‘‘‘bufsize‘40938);   %读取预处理的文本
    pre{j}=file;
    term=strcat(termpre{j});%获得词项
    j=j+1;
end

for i=10:(10+doc_N-1)
    %path=[‘.\实验文本\编程小文本测试\spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
    path=[‘.\实验文本\训练文本\C000010\spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
    file=textread(path‘%s‘‘whitespace‘‘‘‘bufsize‘40938);   %读取预处理的文本
    pre{j}=file;
    term=strcat(termpre{j});%获得词项
    j=j+1;
end

for i=10:(10+doc_N-1)
    %path=[‘.\实验文本\编程小文本测试\spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
    path=[‘.\实验文本\训练文本\C000013\spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
    file=textread(path‘%s‘‘whitespace‘‘‘‘bufsize‘40938);   %读取预处理的文本
    pre{j}=file;
    term=strcat(termpre{j});%获得词项
    j=j+1;
end

term=rid_stopwords(termstopwords_table); %去掉冗余词
term=textscan(term{1}‘%s‘); %将字符串转换成cell元组
term=unique(term{1});  %获得term词项表term


%统计term-doc矩阵
term_doc=zeros(doc_Nsize(term1)); %建立term-doc矩阵
for i=1:size(pre2)
    for j=1:size(term1)
        temp=findstr(pre{i}{1}term{j});    %通过term词项在处理过的文本中查找
        if(~isempty(temp))
        term_doc(ij)=size(temp2);  %统计词频
        end
    end
end

%计算tfidf
fea = tfidf(term_doc);

%聚类
kmeans(fea3)


 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2013-10-30 10:27  基于停用词的文本预处理及其聚类\bagging实验\
     文件        1481  2013-10-30 10:31  基于停用词的文本预处理及其聚类\bagging实验\mybagging.m
     文件        5731  2013-10-30 10:27  基于停用词的文本预处理及其聚类\bagging实验\seeds.mat
     文件        9511  2013-10-30 10:27  基于停用词的文本预处理及其聚类\bagging实验\seeds.txt
     文件        1909  2013-10-23 13:03  基于停用词的文本预处理及其聚类\mainTextPreprocess.m
     文件         324  2013-10-22 22:32  基于停用词的文本预处理及其聚类\rid_stopwords.m
     文件       15567  2013-10-23 13:00  基于停用词的文本预处理及其聚类\stopwords.txt
     文件        2149  2013-10-22 16:21  基于停用词的文本预处理及其聚类\tfidf.m
     文件         200  2013-10-22 17:24  基于停用词的文本预处理及其聚类\读我.txt
     目录           0  2014-04-11 10:02  基于停用词的文本预处理及其聚类\实验文本\
     目录           0  2014-04-11 10:02  基于停用词的文本预处理及其聚类\实验文本\编程小文本测试\
     文件         206  2013-10-28 22:08  基于停用词的文本预处理及其聚类\实验文本\编程小文本测试\批处理改名.bat
     目录           0  2013-10-22 17:16  基于停用词的文本预处理及其聚类\实验文本\训练文本\
     目录           0  2013-10-23 12:38  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\
     文件        5655  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_10.txt
     文件         811  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_11.txt
     文件        2457  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_12.txt
     文件        1639  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_13.txt
     文件        1920  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_14.txt
     文件         672  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_15.txt
     文件         632  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_16.txt
     文件        6976  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_17.txt
     文件        1105  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_18.txt
     文件         639  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_19.txt
     文件        8205  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_20.txt
     文件        8363  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_21.txt
     文件        1513  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_22.txt
     文件         412  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_23.txt
     文件         376  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_24.txt
     文件        2118  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_25.txt
     文件         788  2013-10-10 17:37  基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_26.txt
............此处省略155个文件信息

评论

共有 条评论