资源简介
本项目是基于hadoop搜索引擎的离线处理程序,主要包含三部分
1.网页信息过滤
2.生成倒排索引文件
3.生成二级索引文件;
代码片段和文件信息
/**
* @ClassName: BBS.java
* @Description: TODO
* @Author 沈龙
* email: shenlong@37wan.com
* @Version V1.0
* @Date 2014-10-9
*/
package com.sl.bbs;
public class BBS {
private String url;
private String hot;
private String author;
private String title;
private String content;
public String getUrl() {
return url;
}
public void setUrl(String url) {
this.url = url;
}
public String getHot() {
return hot;
}
public void setHot(String hot) {
this.hot = hot;
}
public String getAuthor() {
return author;
}
public void setAuthor(String author) {
this.author = author;
}
public String gettitle() {
return title;
}
public void settitle(String title) {
this.title = title;
}
public String getContent() {
return content;
}
public void setContent(String content) {
this.content = content;
}
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2014-10-13 11:47 BBS\
文件 2293 2014-10-11 17:17 BBS\.classpath
文件 379 2014-10-09 16:03 BBS\.project
目录 0 2014-10-13 09:51 BBS\.settings\
文件 57 2014-10-13 09:51 BBS\.settings\org.eclipse.core.resources.prefs
文件 598 2014-10-09 16:03 BBS\.settings\org.eclipse.jdt.core.prefs
目录 0 2014-10-20 15:03 BBS\bin\
文件 0 2014-10-07 17:21 BBS\bin\ext_stopword.dic
文件 421 2014-10-07 17:18 BBS\bin\IKAnalyzer.cfg.xm
文件 1041 2014-09-26 11:05 BBS\bin\logback.xm
文件 8 2014-10-07 17:19 BBS\bin\mydict.dic
文件 4347 2014-10-11 15:18 BBS\build.xm
目录 0 2014-10-20 15:03 BBS\classes\
目录 0 2014-10-13 11:47 BBS\dist\
文件 5532351 2014-10-13 11:47 BBS\dist\bbac.jar
目录 0 2014-10-09 16:03 BBS\lib\
文件 298829 2013-10-06 00:14 BBS\lib\commons-configuration-1.6.jar
文件 284220 2013-10-06 00:13 BBS\lib\commons-lang-2.6.jar
文件 60686 2013-10-06 00:12 BBS\lib\commons-logging-1.1.1.jar
文件 15322 2013-10-06 01:07 BBS\lib\findbugs-annotations-1.3.9-1.jar
文件 190418 2014-04-02 09:43 BBS\lib\gson-2.2.4.jar
文件 1795932 2013-10-06 01:08 BBS\lib\guava-12.0.1.jar
文件 16778 2013-12-08 15:27 BBS\lib\hadoop-annotations-2.2.0.jar
文件 2677326 2014-04-08 14:04 BBS\lib\hadoop-common-2.2.0.jar
文件 5242252 2013-12-08 15:33 BBS\lib\hadoop-hdfs-2.2.0.jar
文件 1455001 2013-12-08 15:28 BBS\lib\hadoop-mapreduce-client-core-2.2.0.jar
文件 893714 2014-02-07 08:47 BBS\lib\hba
文件 431705 2014-02-07 08:47 BBS\lib\hba
文件 104234 2014-02-07 08:47 BBS\lib\hba
文件 32298 2014-02-07 08:47 BBS\lib\hba
文件 73029 2014-02-07 08:47 BBS\lib\hba
............此处省略38个文件信息
- 上一篇:云计算核心技术剖析完整清晰版.PDF
- 下一篇:OpenMV固件资料
相关资源
- HadoopWeb项目--网上商城推荐系统
- Hadoop实战-陆嘉恒高清完整版.pdf
- eclipse的hadoop2.7.2插件
- 新尚硅谷大数据技术之Hadoop入门
- Hadoop权威指南.pdf
- hadoop-eclipse-plugin-1.0.05个版本
- 基于Hadoop的简单网盘实现源代码
- Hadoop大数据分析与挖掘实战
- 邮政大数据Hadoop平台技术标书
- 《Hadoop大数据开发基础》的全套配套
- hadoop权威指南第二版
- 这就是搜索引擎-核心技术详解
- Hadoop实战中文版.PDF
- Hadoop权威指南 第3版 PDF电子书
- spark-2.4.4-bin-hadoop2.6.tgz
- Hadoop权威指南第四版中文
- 各个版本Hadoop,hadoop.dll以及winutils.
- 基于hadoop的电信客服数据分析+文档
- 免费的基于LUCENE的搜索引擎的设计与
- hadoop2.5.0-eclipse插件
- Hadoop-TheDefinitiveGuide4thEdition.pdf
- Hadoop The Definitive Guide 4th Edition.pdf
- sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
- 搜索引擎PageRank算法实现及测试数据
- Cloudera hadoop开发员培训教材
- Hadoop经典技术书籍合集(Spark Kafka H
- Hadoop_Spark大数据巨量分析与机器学习
- hadoop-2.5.0-cdh5.3.6的native包-含snappy
- lucene 中文分词
- 大数据整体平台标书.docx
评论
共有 条评论