资源简介
自己动手制作主题搜索引擎,包含数据抓取和搜索,数据抓取采用启发式爬虫,搜索利用正常思路
代码片段和文件信息
package com.huaban.analysis.jieba;
import java.util.regex.Pattern;
public class CharacterUtil {
public static Pattern reSkip = Pattern.compile(“(\\d+\\.\\d+|[a-zA-Z0-9]+)“);
private static final char[] connectors = new char[] { ‘+‘ ‘#‘ ‘&‘ ‘.‘ ‘_‘ ‘-‘ };
public static boolean isChineseLetter(char ch) {
if (ch >= 0x4E00 && ch <= 0x9FA5)
return true;
return false;
}
public static boolean isEnglishLetter(char ch) {
if ((ch >= 0x0041 && ch <= 0x005A) || (ch >= 0x0061 && ch <= 0x007A))
return true;
return false;
}
public static boolean isDigit(char ch) {
if (ch >= 0x0030 && ch <= 0x0039)
return true;
return false;
}
public static boolean isConnector(char ch) {
for (char connector : connectors)
if (ch == connector)
return true;
return false;
}
public static boolean ccFind(char ch) {
if (isChineseLetter(ch))
return true;
if (isEnglishLetter(ch))
return true;
if (isDigit(ch))
return true;
if (isConnector(ch))
return true;
return false;
}
/**
* 全角 to 半角大写 to 小写
*
* @param input
* 输入字符
* @return 转换后的字符
*/
public static char regularize(char input) {
if (input == 12288) {
return 32;
}
else if (input > 65280 && input < 65375) {
return (char) (input - 65248);
}
else if (input >= ‘A‘ && input <= ‘Z‘) {
return (input += 32);
}
return input;
}
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2016-05-21 00:52 search\
文件 454 2016-05-20 20:30 search\.classpath
文件 382 2016-05-14 16:51 search\.project
目录 0 2016-05-14 16:51 search\.settings\
文件 598 2016-05-14 16:51 search\.settings\org.eclipse.jdt.core.prefs
目录 0 2016-05-21 00:44 search\bin\
目录 0 2016-05-20 20:30 search\bin\com\
目录 0 2016-05-20 20:30 search\bin\com\huaban\
目录 0 2016-05-20 20:30 search\bin\com\huaban\analysis\
目录 0 2016-05-20 20:30 search\bin\com\huaban\analysis\jieba\
文件 1546 2016-05-20 20:30 search\bin\com\huaban\analysis\jieba\CharacterUtil.class
文件 5503 2016-05-20 20:30 search\bin\com\huaban\analysis\jieba\DictSegment.class
文件 1703 2016-05-20 20:30 search\bin\com\huaban\analysis\jieba\Hit.class
文件 1226 2016-05-20 20:30 search\bin\com\huaban\analysis\jieba\Jieba
文件 8447 2016-05-20 20:30 search\bin\com\huaban\analysis\jieba\Jieba
文件 467 2016-05-20 20:30 search\bin\com\huaban\analysis\jieba\Node.class
文件 1104 2016-05-20 20:30 search\bin\com\huaban\analysis\jieba\Pair.class
文件 842 2016-05-20 20:30 search\bin\com\huaban\analysis\jieba\SegToken.class
目录 0 2016-05-20 20:30 search\bin\com\huaban\analysis\jieba\viterbi\
文件 9018 2016-05-20 20:30 search\bin\com\huaban\analysis\jieba\viterbi\FinalSeg.class
文件 7621 2016-05-20 20:30 search\bin\com\huaban\analysis\jieba\WordDictionary.class
文件 5071839 2016-05-20 20:30 search\bin\dict.txt
目录 0 2016-05-21 00:44 search\bin\iktest\
文件 407 2016-05-20 20:30 search\bin\iktest\dict1.txt
文件 1081 2016-05-20 20:30 search\bin\iktest\IKtest.class
文件 391274 2016-05-20 20:30 search\bin\iktest\mydict.txt
文件 5877 2016-05-21 00:44 search\bin\iktest\SAA.class
文件 7859 2016-05-21 00:37 search\bin\iktest\Search.class
文件 2973 2016-05-20 20:34 search\bin\iktest\stopwords.txt
文件 35530 2016-05-20 20:30 search\bin\jieba.java.code.st
目录 0 2016-05-20 20:30 search\bin\main\
............此处省略56个文件信息
- 上一篇:项目管理project作业
- 下一篇:微博分类语料
相关资源
- 搜索引擎行业发展状况调查报告.ppt
- SEO培训PPT课件:搜索引擎工作原理
- 百度_Google_Sogou三种图像搜索引擎功能
- 搜索引擎.xmind
- 3.8搜索引擎的设计与实现.zip
- 搜索引擎的搭建Lucene代码
- ( 搜索引擎-原理、技术与系统.pdf )
- 搜索引擎毕业设计外文翻译
- 文艺青年搜索引擎V2.zip
- 迅速搭建全文搜索平台—开源搜索引
- 阿西搜索引擎蜘蛛爬行统计系统 v2.
- 搜索引擎深度搜索系统
- 基于LUCENE的搜索引擎的设计与实现源
- elasticsearch安装包.zip
- 搜索引擎技术核心详解
- 搜索引擎——信息检索实践W.Bruce Cr
- 基于hadoop搜索引擎 离线处理程序
- 这就是搜索引擎-核心技术详解
- 免费的基于LUCENE的搜索引擎的设计与
- 搜索引擎PageRank算法实现及测试数据
- lucene 中文分词
- elasticsearch-7.3.2-no-jdk-windows-x86_64.zip
- Lucene in Action z中文版
- x-pack-5.4.0.zip
- 可切换搜索引擎的导航网页搜索框
- 搜索引擎文本预处理
- ES的搜索引擎的设计与实现源码.zip
- 论文研究-基于点击日志的搜索引擎用
- 搜索引擎考试重点
- 仿百度/google搜索引擎
评论
共有 条评论