资源简介
基于Hadoop的文本分类算法系统,本系统实现了分词处理,停用词处理(IK);使用朴素贝叶斯分类算法来对文本进行训练和分类,在测试过程中使用词频特征选择作为特征词选择算法,分类准确率达到了78%,包含卡方特征选择算法(训练集特征选择)。
代码片段和文件信息
package cn.edu.cqut.bean;
public class CategoryTotal implements Comparable{
private String word;
private String category;
private double times;
private double categoryFileTotal;
private double totalFile;
/**
* @return the word
*/
public String getWord() {
return word;
}
/**
* @param word the word to set
*/
public void setWord(String word) {
this.word = word;
}
/**
* @return the category
*/
public String getCategory() {
return category;
}
/**
* @param category the category to set
*/
public void setCategory(String category) {
this.category = category;
}
/**
* @return the times
*/
public double getTimes() {
return times;
}
/**
* @param times the times to set
*/
public void setTimes(double times) {
this.times = times;
}
/**
* @return the categoryFileTotal
*/
public double getCategoryFileTotal() {
return categoryFileTotal;
}
/**
* @param categoryFileTotal the categoryFileTotal to set
*/
public void setCategoryFileTotal(double categoryFileTotal) {
this.categoryFileTotal = categoryFileTotal;
}
/**
* @return the totalFile
*/
public double getTotalFile() {
return totalFile;
}
/**
* @param totalFile the totalFile to set
*/
public void setTotalFile(double totalFile) {
this.totalFile = totalFile;
}
public CategoryTotal() {
super();
}
public CategoryTotal(String word String category double times double categoryFileTotal double totalFile) {
super();
this.word = word;
this.category = category;
this.times = times;
this.categoryFileTotal = categoryFileTotal;
this.totalFile = totalFile;
}
public CategoryTotal(String category double categoryFileTotal double totalFile) {
super();
this.category = category;
this.categoryFileTotal = categoryFileTotal;
this.totalFile = totalFile;
}
@Override
public int compareTo(CategoryTotal o) {
int out = -2;
if(this.word.equals(o.getWord())){
out = 0;
}
if(this.category.equals(o.getCategory())){
out = 0;
}
if(this.times==o.getTimes()){
out = 0;
}
if(this.categoryFileTotal==o.getCategoryFileTotal()){
out = 0;
}
if(this.totalFile==o.getTotalFile()){
out = 0;
}
return out;
}
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 794 2014-05-21 20:22 NativeBayes\.classpath
文件 370 2014-05-21 19:38 NativeBayes\.project
文件 587 2014-05-21 19:38 NativeBayes\.settings\org.eclipse.jdt.core.prefs
文件 2346 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\bean\CategoryTotal.class
文件 2396 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\mapreduce\FileTotal$FileCountMapper.class
文件 3937 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\mapreduce\FileTotal$FileCountReducer.class
文件 479 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\mapreduce\FileTotal.class
文件 2412 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\mapreduce\ModelTrain$ModelTrainCombiner.class
文件 3069 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\mapreduce\ModelTrain$ModelTrainMapper.class
文件 5182 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\mapreduce\ModelTrain$ModelTrainReducer.class
文件 574 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\mapreduce\ModelTrain.class
文件 3349 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\mapreduce\NativeBayes$NativeBayesCombiner.class
文件 3076 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\mapreduce\NativeBayes$NativeBayesMapper.class
文件 1130 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\mapreduce\NativeBayes$NativeBayesPartitoner.class
文件 5079 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\mapreduce\NativeBayes$NativeBayesReducer.class
文件 679 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\mapreduce\NativeBayes.class
文件 2845 2014-06-09 05:31 NativeBayes\bin\cn\edu\cqut\run\TestWork.class
文件 2979 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\run\TrainWork.class
文件 2476 2014-06-09 05:14 NativeBayes\bin\cn\edu\cqut\util\Curr.class
文件 2638 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\util\GetAllFilePath.class
文件 4578 2014-06-09 05:07 NativeBayes\bin\cn\edu\cqut\util\ReadFileFromHdfs.class
文件 412 2014-06-09 04:47 NativeBayes\bin\IKAnalyzer.cfg.xm
文件 8137 2014-06-08 00:14 NativeBayes\bin\stopword.dic
文件 41123 2014-05-21 19:38 NativeBayes\lib\commons-cli-1.2.jar
文件 279781 2014-05-21 19:38 NativeBayes\lib\commons-httpclient-3.0.1.jar
文件 38015 2014-05-21 19:38 NativeBayes\lib\commons-logging-1.0.4.jar
文件 6839 2014-05-21 19:38 NativeBayes\lib\hadoop-0.20.2-ant.jar
文件 2689741 2014-05-21 19:38 NativeBayes\lib\hadoop-0.20.2-core.jar
文件 69940 2014-05-21 19:38 NativeBayes\lib\hadoop-0.20.2-tools.jar
文件 1165347 2014-05-21 19:38 NativeBayes\lib\IKAnalyzer2012_u6.jar
............此处省略33个文件信息
- 上一篇:arm经典教材 入门的必备书籍
- 下一篇:全面认识前端知识领域PPT
相关资源
- 数据挖掘文本分类语料库中文-李荣陆
- Hadoop安全-大数据平台隐私保护 中文完
- 全量消费大数据商圈模型实战
- 生成 hadoop-eclipse-plugin-2.x 插件工具代
- 广工 虚拟化与云计算课程报告 Hadoo
- Hadoop Security Protecting Your Big Data Platf
- hadoop2.9.1 winutils.exe hadoop.dll
- Big_Data_Analytics_with_Spark_and_Hadoop-Packt
- CDH5 Hadoop集群完全离线安装说明
- 基于Hadoop的档案共享系统毕业设计含
- Hadoop编程课程设计项目.zip
- hadoop培训ppt资料
- Cloudera-Manager-中文手册
- SVMCLS 文本自动分类器可编译Release完整
- Hadoop.The.Definitive.Guide.4th.Edition.2015.3
- 厦门大学林子雨编著-基于Hadoop的数据
- Hadoop权威指南第四版-书签文字版.pd
- 大数据网络日志数据分析样本
- Hadoop 2.7.1 中文文档
- hadoop 安装配置说明,以及相关实验等
- Talend学习资料入门指南
- 大数据设计方案
- 数仓ETL任务规范
- Centos 7安装配置Hadoop生态圈CDH5版本
- 文本分类器,KNNSVM贝叶斯等都有
- Hadoop The Definitive Guide 4th Edition英文版
- CDH开启Kerberos+Sentry权限控制-实施配置
- Apache Hadoop YARN.pdf完整电子版
- MapReduce实现矩阵相乘算法
- Centos7.2安装Ambari2.4.2+HDP2.5.3搭建Hadoo
评论
共有 条评论