资源简介

算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现

资源截图

代码片段和文件信息

package textcluster;

import java.util.List;



 /// 
    /// 分词器接口
    /// 

    public interface ITokeniser
    {
        List partition(String input);
    }

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件       1510  2009-05-08 07:30  textcluster\WawaCluster.java

     文件       5669  2009-05-08 07:57  textcluster\WawaKMeans.java

     文件        204  2009-05-07 11:02  textcluster\ITokeniser.java

     文件       1487  2009-05-07 21:58  textcluster\Tokeniser.java

     文件       3474  2009-05-08 07:55  textcluster\Program.java

     文件       1152  2009-05-07 22:02  textcluster\StopWordsHandler.java

     文件       1392  2009-05-07 11:04  textcluster\TermVector.java

     文件       6930  2009-05-08 10:27  textcluster\TFIDFMeasure.java

     文件        606  2009-05-07 10:45  textcluster\input.txt

     目录          0  2009-05-08 16:55  textcluster

----------- ---------  ---------- -----  ----

                22424                    10


评论

共有 条评论