资源简介
算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现

代码片段和文件信息
package textcluster;
import java.util.List;
///
/// 分词器接口
///
public interface ITokeniser
{
List partition(String input);
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 1510 2009-05-08 07:30 textcluster\WawaCluster.java
文件 5669 2009-05-08 07:57 textcluster\WawaKMeans.java
文件 204 2009-05-07 11:02 textcluster\ITokeniser.java
文件 1487 2009-05-07 21:58 textcluster\Tokeniser.java
文件 3474 2009-05-08 07:55 textcluster\Program.java
文件 1152 2009-05-07 22:02 textcluster\StopWordsHandler.java
文件 1392 2009-05-07 11:04 textcluster\TermVector.java
文件 6930 2009-05-08 10:27 textcluster\TFIDFMeasure.java
文件 606 2009-05-07 10:45 textcluster\input.txt
目录 0 2009-05-08 16:55 textcluster
----------- --------- ---------- ----- ----
22424 10
- 上一篇:commons-lang3-3.1源码包
- 下一篇:基于P2P网络chord算法
相关资源
- u-blox_Android_GNSS_Driver_v3.10驱动源码+中
- java读取DBF解决方案(可以解决javadb
- Android安卓中文API开发文档参考手册官
- spring3.0 API 中文 CHM文档
- think in java中文第五版
- pdf-chinese.zip
- java ee api中文版
- J2EE(中文版)(CHM版)
- J2EE中文版api doc文档
- android studio 3.2 中文补丁直接替换可用
- 中文分词器(mmseg4j + luncene5.X)源码
- 中文数字转成阿拉伯数字 java 实现
- Smali指令中文手册
- 《Java编程艺术》中文版pdf以及源代码
- 全世界最经典的数据结构教材,Horo
- Hibernate in action 中文版 实战 part_3
- Android 渗透测试学习手册 中文版
- adb push不支持中文乱码的解决方案
- IKAnalyzer2012.jar
- JavaWeb中文件上传最强工具类
- Google Java 编程规范中文版
- Head First Java.第二版.中文完整高清版
- 《Effective Java 第2版》完整高清版中文
- Java编程思想(中文版)Thinking In Jav
- ThinkingInJava4(完美高清中文版).rar
- StarUML5.0中文汉化版文件.zip
- Jperf-2.0.0网络测速-中文版
- spring-boot-中文文档.pdf
- mybatis-3.4.4包含源码,中文帮助文档
- Java 8 简明教程 Java 8 Tutorial中文版文字
评论
共有 条评论