资源简介
算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法,整个工程可以直接运行,
代码片段和文件信息
package com.sws.text.cluster;
import java.util.List;
///
/// 分词器接口
///
public interface ITokeniser
{
List partition(String input);
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2011-07-03 15:48 textcluster\
文件 340 2011-07-03 15:48 textcluster\.classpath
目录 0 2011-07-03 15:48 textcluster\.myeclipse\
文件 306 2011-07-03 15:48 textcluster\.myme
文件 1013 2011-07-03 15:48 textcluster\.project
目录 0 2011-07-03 15:55 textcluster\src\
目录 0 2011-07-03 15:49 textcluster\src\com\
目录 0 2011-07-03 15:49 textcluster\src\com\sws\
目录 0 2011-07-03 15:49 textcluster\src\com\sws\text\
目录 0 2011-07-03 15:54 textcluster\src\com\sws\text\cluster\
文件 823 2011-07-03 15:55 textcluster\src\com\sws\text\cluster\input.txt
文件 221 2011-07-03 15:54 textcluster\src\com\sws\text\cluster\ITokeniser.java
文件 3710 2011-07-03 16:02 textcluster\src\com\sws\text\cluster\Program.java
文件 1201 2011-07-03 15:54 textcluster\src\com\sws\text\cluster\StopWordsHandler.java
文件 1404 2011-07-03 15:54 textcluster\src\com\sws\text\cluster\TermVector.java
文件 6944 2011-07-03 15:54 textcluster\src\com\sws\text\cluster\TFIDFMeasure.java
文件 1534 2011-07-03 15:54 textcluster\src\com\sws\text\cluster\Tokeniser.java
文件 1647 2011-07-03 15:54 textcluster\src\com\sws\text\cluster\WawaCluster.java
文件 6038 2011-07-03 15:54 textcluster\src\com\sws\text\cluster\WawaKMeans.java
目录 0 2011-07-03 15:48 textcluster\WebRoot\
文件 831 2011-07-03 15:48 textcluster\WebRoot\index.jsp
目录 0 2011-07-03 15:48 textcluster\WebRoot\me
文件 39 2011-07-03 15:48 textcluster\WebRoot\me
目录 0 2011-07-03 15:48 textcluster\WebRoot\WEB-INF\
目录 0 2011-07-03 15:55 textcluster\WebRoot\WEB-INF\classes\
目录 0 2011-07-03 15:53 textcluster\WebRoot\WEB-INF\classes\com\
目录 0 2011-07-03 15:53 textcluster\WebRoot\WEB-INF\classes\com\sws\
目录 0 2011-07-03 15:53 textcluster\WebRoot\WEB-INF\classes\com\sws\text\
目录 0 2011-07-03 15:55 textcluster\WebRoot\WEB-INF\classes\com\sws\text\cluster\
文件 823 2011-07-03 15:55 textcluster\WebRoot\WEB-INF\classes\com\sws\text\cluster\input.txt
文件 260 2011-07-03 15:54 textcluster\WebRoot\WEB-INF\classes\com\sws\text\cluster\ITokeniser.class
............此处省略9个文件信息
- 上一篇:java2实用教程学习笔记
- 下一篇:毕业设计经典android项目源码
相关资源
- java快捷键工具箱(快速打开本地应用
- java 飞机大战(面向对象源码)
- java 跑马程序
- 飞机大战小游戏源码(java Swing)
- java入门137:清理指定目录下的.tmp文件
- java删除文件夹中所有文件
- java重命名RAR压缩包中文件
- java显示指定类型的文件(按文件后缀
- java控制台(命令行)输入交互
- java 自定义表头(列头增加icon图标)
- Java入门-控件的排布(2).zip
- Java入门-显示多种字体(8).zip
- Java入门-使用表格显示查询结果(77)
- Java入门-取得目录文件信息(50).zi
- Java入门-zip压缩包查看程序(56).zi
- Java入门-阴影文字(26).zip
- Java入门-彩色列表框(4).zip
- Java入门-程序启动界面(20).zip
- Java入门-常用图形的绘制与填充(47)
- Java入门-从压缩包中提取文件(55)
- Java入门-滑杆演示(19).zip
- Java入门-图片倒影(34).zip
- Java入门-3D文字(27).zip
- Java入门-移动的遮照效果(45).zip
- Java入门-自定义光标(23).zip
- Java入门-图片火焰效果(32).zip
- Java入门-简单的文本编辑器(12).zi
- Java入门-产生自己的控件(1).zip
- Java入门-圆形的按钮(5).zip
- Java入门-不规则图形的绘制(48).zi
评论
共有 条评论