资源简介
java版结巴分词工具,一个很好的中文分词工具。直接用eclipse打开,输入是一篇文章,然后输出是每个词的词频,并且词频是按照大小从次数最高到次数最低排的,只需要在test包里改部分代码就可以使用了。
不下你会后悔的。
代码片段和文件信息
package com.huaban.analysis.jieba;
import java.util.regex.Pattern;
public class CharacterUtil {
public static Pattern reSkip = Pattern.compile(“(\\d+\\.\\d+|[a-zA-Z0-9]+)“);
private static final char[] connectors = new char[] { ‘+‘ ‘#‘ ‘&‘ ‘.‘ ‘_‘ ‘-‘ };
public static boolean isChineseLetter(char ch) {
if (ch >= 0x4E00 && ch <= 0x9FA5)
return true;
return false;
}
public static boolean isEnglishLetter(char ch) {
if ((ch >= 0x0041 && ch <= 0x005A) || (ch >= 0x0061 && ch <= 0x007A))
return true;
return false;
}
public static boolean isDigit(char ch) {
if (ch >= 0x0030 && ch <= 0x0039)
return true;
return false;
}
public static boolean isConnector(char ch) {
for (char connector : connectors)
if (ch == connector)
return true;
return false;
}
public static boolean ccFind(char ch) {
if (isChineseLetter(ch))
return true;
if (isEnglishLetter(ch))
return true;
if (isDigit(ch))
return true;
if (isConnector(ch))
return true;
return false;
}
/**
* 全角 to 半角大写 to 小写
*
* @param input
* 输入字符
* @return 转换后的字符
*/
public static char regularize(char input) {
if (input == 12288) {
return 32;
}
else if (input > 65280 && input < 65375) {
return (char) (input - 65248);
}
else if (input >= ‘A‘ && input <= ‘Z‘) {
return (input += 32);
}
return input;
}
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2017-11-29 20:25 JBFC\
文件 301 2017-11-29 20:25 JBFC\.classpath
文件 380 2017-11-29 20:25 JBFC\.project
目录 0 2017-11-29 20:25 JBFC\.settings\
文件 598 2017-11-29 20:25 JBFC\.settings\org.eclipse.jdt.core.prefs
目录 0 2017-11-29 20:25 JBFC\bin\
目录 0 2017-11-29 20:25 JBFC\bin\com\
目录 0 2017-11-29 20:25 JBFC\bin\com\huaban\
目录 0 2017-11-29 20:25 JBFC\bin\com\huaban\analysis\
目录 0 2017-11-29 20:25 JBFC\bin\com\huaban\analysis\jieba\
文件 1546 2017-11-29 20:25 JBFC\bin\com\huaban\analysis\jieba\CharacterUtil.class
文件 5503 2017-11-29 20:25 JBFC\bin\com\huaban\analysis\jieba\DictSegment.class
文件 1703 2017-11-29 20:25 JBFC\bin\com\huaban\analysis\jieba\Hit.class
文件 1226 2017-11-29 20:25 JBFC\bin\com\huaban\analysis\jieba\Jieba
文件 8447 2017-11-29 20:25 JBFC\bin\com\huaban\analysis\jieba\Jieba
文件 467 2017-11-29 20:25 JBFC\bin\com\huaban\analysis\jieba\Node.class
文件 1104 2017-11-29 20:25 JBFC\bin\com\huaban\analysis\jieba\Pair.class
文件 842 2017-11-29 20:25 JBFC\bin\com\huaban\analysis\jieba\SegToken.class
文件 7621 2017-11-29 20:25 JBFC\bin\com\huaban\analysis\jieba\WordDictionary.class
目录 0 2017-11-29 20:25 JBFC\bin\com\huaban\analysis\jieba\viterbi\
文件 9018 2017-11-29 20:25 JBFC\bin\com\huaban\analysis\jieba\viterbi\FinalSeg.class
目录 0 2017-11-29 20:25 JBFC\bin\com\huaban\ananlysis\
目录 0 2017-11-29 20:25 JBFC\bin\com\huaban\ananlysis\utils\
文件 1602 2017-11-29 20:25 JBFC\bin\com\huaban\ananlysis\utils\ReadTxt.class
文件 5071839 2017-11-29 20:25 JBFC\bin\dict.txt
文件 35530 2017-11-29 20:25 JBFC\bin\jieba.java.code.st
文件 665440 2017-11-29 20:25 JBFC\bin\prob_emit.txt
目录 0 2017-11-29 20:25 JBFC\bin\test\
文件 1244 2017-11-29 20:25 JBFC\bin\test\Test$1.class
文件 3680 2017-11-29 20:25 JBFC\bin\test\Test.class
目录 0 2017-11-29 20:25 JBFC\src\
............此处省略22个文件信息
评论
共有 条评论