资源简介
算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现
代码片段和文件信息
package textcluster;
import java.util.List;
///
/// 分词器接口
///
public interface ITokeniser
{
List partition(String input);
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 1510 2009-05-08 07:30 textcluster\WawaCluster.java
文件 5669 2009-05-08 07:57 textcluster\WawaKMeans.java
文件 204 2009-05-07 11:02 textcluster\ITokeniser.java
文件 1487 2009-05-07 21:58 textcluster\Tokeniser.java
文件 3474 2009-05-08 07:55 textcluster\Program.java
文件 1152 2009-05-07 22:02 textcluster\StopWordsHandler.java
文件 1392 2009-05-07 11:04 textcluster\TermVector.java
文件 6930 2009-05-08 10:27 textcluster\TFIDFMeasure.java
文件 606 2009-05-07 10:45 textcluster\input.txt
目录 0 2009-05-08 16:55 textcluster
----------- --------- ---------- ----- ----
22424 10
- 上一篇:commons-lang3-3.1源码包
- 下一篇:基于P2P网络chord算法
相关资源
- kmeans聚类java实现附测试数据及结果
- dicuz_ucenter_api (java版本)[含用法且已
- bean-validator+中文参考手册
- servlet-api.chm (中文版)
- Java7入门经典_中文版_带书签_高清完整
- jni 开发 帮助文档 api 适合安卓/Andro
- JavaService-2.0.10.zip,包含中文使用说明
- CRF+词典方法的中文命名实体识别工具
- JAVA编程思想_第4版_中文版.zip
- scala中文教程PDF
- JasperReport中文用户手册
- Aqua.Data.Studio.19.0.1.5_x64中文包
- RK3399_Android8.1_软件开发指南_v1.10_201
- IK_CAnalyzer.jar
- org.dtools.javaini-v1.1.0.jar
- Java_Virtual_Machine_Specification_Java_SE_7_中
- SELinux for Android 8.0 中文版
- java zip压缩解压工具解决中文乱码问题
- Selenium_中文API_手册.zip
- Android 中文帮助文档(API)
- Android sdk 帮助文档中文版
- 安卓(android)帮助文档API中文版全集
- java反编译工具jd-gui绿色中文版
- ADBKeyBoard.apk 输入中文的输入法
- JFLex用户手册中文版.PDF
-
Myba
se Desktop 6.2.0 完美破解中文版 - intellij idea 中文语言包resources_zh_CN_I
- JAVA实现的中文分词程序
- java反编译工具(XJad) 2.2 中文绿色版
- 最好的JAVA反编译工具 中文版
评论
共有 条评论