资源简介
基于停用词的文本预处理及其聚类(matlab)
代码片段和文件信息
clear;
doc_N=20; %前N篇文章
%%%%%%%%%%%%%%%考虑词性预处理
stopwords_table= textread(‘.\stopwords.txt‘‘%s‘‘delimiter‘‘\n‘‘whitespace‘‘‘);%读取停用词表
%读取预处理的文本
pre=cell(1doc_N);term=[];prePosTag=cell(1doc_N);j=1;
for i=10:(10+doc_N-1)
%path=[‘.\实验文本\编程小文本测试\spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
path=[‘.\实验文本\训练文本\C000008\spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
file=textread(path‘%s‘‘whitespace‘‘‘‘bufsize‘40938); %读取预处理的文本
pre{j}=file;
term=strcat(termpre{j});%获得词项
j=j+1;
end
for i=10:(10+doc_N-1)
%path=[‘.\实验文本\编程小文本测试\spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
path=[‘.\实验文本\训练文本\C000010\spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
file=textread(path‘%s‘‘whitespace‘‘‘‘bufsize‘40938); %读取预处理的文本
pre{j}=file;
term=strcat(termpre{j});%获得词项
j=j+1;
end
for i=10:(10+doc_N-1)
%path=[‘.\实验文本\编程小文本测试\spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
path=[‘.\实验文本\训练文本\C000013\spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
file=textread(path‘%s‘‘whitespace‘‘‘‘bufsize‘40938); %读取预处理的文本
pre{j}=file;
term=strcat(termpre{j});%获得词项
j=j+1;
end
term=rid_stopwords(termstopwords_table); %去掉冗余词
term=textscan(term{1}‘%s‘); %将字符串转换成cell元组
term=unique(term{1}); %获得term词项表term
%统计term-doc矩阵
term_doc=zeros(doc_Nsize(term1)); %建立term-doc矩阵
for i=1:size(pre2)
for j=1:size(term1)
temp=findstr(pre{i}{1}term{j}); %通过term词项在处理过的文本中查找
if(~isempty(temp))
term_doc(ij)=size(temp2); %统计词频
end
end
end
%计算tfidf
fea = tfidf(term_doc);
%聚类
kmeans(fea3)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2013-10-30 10:27 基于停用词的文本预处理及其聚类\bagging实验\
文件 1481 2013-10-30 10:31 基于停用词的文本预处理及其聚类\bagging实验\mybagging.m
文件 5731 2013-10-30 10:27 基于停用词的文本预处理及其聚类\bagging实验\seeds.mat
文件 9511 2013-10-30 10:27 基于停用词的文本预处理及其聚类\bagging实验\seeds.txt
文件 1909 2013-10-23 13:03 基于停用词的文本预处理及其聚类\mainTextPreprocess.m
文件 324 2013-10-22 22:32 基于停用词的文本预处理及其聚类\rid_stopwords.m
文件 15567 2013-10-23 13:00 基于停用词的文本预处理及其聚类\stopwords.txt
文件 2149 2013-10-22 16:21 基于停用词的文本预处理及其聚类\tfidf.m
文件 200 2013-10-22 17:24 基于停用词的文本预处理及其聚类\读我.txt
目录 0 2014-04-11 10:02 基于停用词的文本预处理及其聚类\实验文本\
目录 0 2014-04-11 10:02 基于停用词的文本预处理及其聚类\实验文本\编程小文本测试\
文件 206 2013-10-28 22:08 基于停用词的文本预处理及其聚类\实验文本\编程小文本测试\批处理改名.bat
目录 0 2013-10-22 17:16 基于停用词的文本预处理及其聚类\实验文本\训练文本\
目录 0 2013-10-23 12:38 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\
文件 5655 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_10.txt
文件 811 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_11.txt
文件 2457 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_12.txt
文件 1639 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_13.txt
文件 1920 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_14.txt
文件 672 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_15.txt
文件 632 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_16.txt
文件 6976 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_17.txt
文件 1105 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_18.txt
文件 639 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_19.txt
文件 8205 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_20.txt
文件 8363 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_21.txt
文件 1513 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_22.txt
文件 412 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_23.txt
文件 376 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_24.txt
文件 2118 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_25.txt
文件 788 2013-10-10 17:37 基于停用词的文本预处理及其聚类\实验文本\训练文本\C000008\spit_26.txt
............此处省略155个文件信息
相关资源
- MATLAB从入门到精通.胡晓冬.董辰辉.扫
- MATLAB语音合成
- 数字图像处理的MATLAB实现第二版 源码
- MATLAB函数速查手册(修订版)-邓薇
- 数字通信同步技术的MATLAB与FPGA实现—
- 一个基于Matlab的简单的ViBe运动检测的
- 经济预测方法与MATLAB实现课件PPT
- Matlab的BNT工具箱
- CNN卷积神经网络Matlab实现
- 先进PID控制MATLAB仿真.zip
- 最优化方法及其Matlab程序设计源程序
- matlab倒立摆系统
- 基于MATLAB的手机相机校正与标定实验
-
matlab/simuli
nk动力学系统建模与仿真 - 先进PID控制MATLAB仿真(4th).rar
- 基于matlab的数学建模算法与应用内以
- 卫星接收机matlab
- 纹理检测代码及论文
- MATLAB神经网络30个案例分析全书+源代
- 关于语音识别的matlab程序
- 基于MATLAB的车牌自动识别系统
- MATLAB工具包mmread函数mmread.zip
- PCA主成分分析实现方法Matlab
- MATLAB神经网络30个案例分析
- Computer Programming with MATLAB
- 基于监控视频的前景目标提取matlab
- zw_MATLAB应用精讲:图像处理与GUI设计
- MATLAB控制系统仿真与详解 夏玮
- matlab神经网络30例电子书+源代码
- Matlab图像处理-图像去噪边缘增强
评论
共有 条评论