资源简介
整合 使用ICTCLAS2013(NlPIR) x64 的中文分词,分词的速度和效果都不错。然后就是对文本进行的去停用词以及特殊符号(哈工大停用词库)的去除,这些特殊符号还有标点符号,以及文本中夹杂的数字和字母会对分词的效果产生影响。eclipse GBK 编码
代码片段和文件信息
import kevin.zhang.NLPIR;
public class TestNLPIR {
public static void main(String[] args) throws Exception {
try {
String sInput = “张华平推出的NLPIR分词系统,又名ICTCLAS2013,新增新词识别、关键词提取、微博分词功能。“;
// 自适应分词
test(sInput);
} catch (Exception ex) {
}
}
public static void test(String sInput) {
try {
NLPIR testNLPIR = new NLPIR();
String argu = ““;
System.out.println(“NLPIR_Init“);
if (testNLPIR.NLPIR_Init(argu.getBytes(“GBK“) 0) == false) {
System.out.println(“Init Fail!“);
return;
}
// 导入用户词典前
byte nativeBytes[] = testNLPIR.NLPIR_ParagraphProcess(sInput.getBytes(“GBK“) 1);
String nativeStr = new String(nativeBytes 0 nativeBytes.length “GBK“);
System.out.println(“分词结果为: “ + nativeStr);
// 初始化分词组件
String argu1 = “test/test.TXT“;
String argu2 = “test/test_result1.TXT“;
nativeBytes = testNLPIR.NLPIR_GetFileNewWords(argu1.getBytes(“GBK“) 50 true);
// 如果是处理内存,可以调用testNLPIR.NLPIR_GetNewWords
nativeStr = new String(nativeBytes 0 nativeBytes.length “GBK“);
System.out.println(“新词识别结果为: “ + nativeStr);
nativeBytes = testNLPIR.NLPIR_GetFileKeyWords(argu1.getBytes(“GBK“) 50 true);
// 如果是处理内存,可以调用testNLPIR.NLPIR_GetKeyWords
nativeStr = new String(nativeBytes 0 nativeBytes.length “GBK“);
System.out.println(“关键词识别结果为: “ + nativeStr);
testNLPIR.NLPIR_FileProcess(argu1.getBytes(“GBK“) argu2.getBytes(“GBK“) 0);
testNLPIR.NLPIR_NWI_Start();
testNLPIR.NLPIR_NWI_AddFile(argu1.getBytes(“GBK“));
testNLPIR.NLPIR_NWI_Complete();
nativeBytes = testNLPIR.NLPIR_NWI_GetResult(true);
nativeStr = new String(nativeBytes 0 nativeBytes.length “GBK“);
System.out.println(“新词识别结果 “ + nativeStr);
testNLPIR.NLPIR_NWI_Result2UserDict();// 新词识别结果
argu2 = “test/test_result2.TXT“;
testNLPIR.NLPIR_FileProcess(argu1.getBytes(“GBK“) argu2.getBytes(“GBK“) 1);
testNLPIR.NLPIR_Exit();
} catch (Exception ex) {
}
}
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 301 2013-12-23 22:46 NlPIR\.classpath
文件 381 2013-12-23 22:46 NlPIR\.project
文件 107 2013-12-23 23:05 NlPIR\.settings\org.eclipse.core.resources.prefs
文件 598 2013-12-23 22:46 NlPIR\.settings\org.eclipse.jdt.core.prefs
文件 388 2013-12-23 23:11 NlPIR\20131223.log
文件 1164 2013-12-23 23:05 NlPIR\bin\kevin\zhang\NLPIR.class
文件 2292736 2013-04-15 14:22 NlPIR\bin\NLPIR_JNI.dll
文件 3415 2013-12-25 15:39 NlPIR\bin\SimilarityCompution\NewFileExcludeStopWord.class
文件 2399 2013-12-25 10:42 NlPIR\bin\TestNLPIR.class
文件 286196 2012-05-18 21:36 NlPIR\Data\BIG2GBK.map
文件 468456 2012-05-18 21:33 NlPIR\Data\BIG5.pdat
文件 158695 2012-05-18 21:33 NlPIR\Data\BIG5.wordlist
文件 3520144 2009-01-16 13:48 NlPIR\Data\BiWord.big
文件 65540 2012-11-08 20:45 NlPIR\Data\charset.type
文件 856 2012-11-14 20:17 NlPIR\Data\Configure.xm
文件 1696620 2009-01-16 13:48 NlPIR\Data\CoreDict.pdat
文件 1786424 2009-01-16 13:48 NlPIR\Data\CoreDict.pos
文件 478168 2009-01-16 13:48 NlPIR\Data\CoreDict.unig
文件 262236 2009-01-16 13:48 NlPIR\Data\FieldDict.pdat
文件 72 2009-01-16 13:48 NlPIR\Data\FieldDict.pos
文件 549204 2012-05-18 21:34 NlPIR\Data\GBK.pdat
文件 166985 2012-05-18 21:34 NlPIR\Data\GBK.wordlist
文件 286196 2012-05-18 21:36 NlPIR\Data\GBK2BIG.map
文件 286196 2012-05-18 21:37 NlPIR\Data\GBK2GBKC.map
文件 286196 2012-05-18 21:37 NlPIR\Data\GBK2UTF.map
文件 550848 2012-12-22 11:50 NlPIR\Data\GBKA.pdat
文件 166985 2012-12-22 11:50 NlPIR\Data\GBKA.wordlist
文件 286196 2012-12-22 11:50 NlPIR\Data\GBKA2UTF.map
文件 550848 2012-05-18 21:34 NlPIR\Data\GBKC.pdat
文件 166985 2012-05-18 21:34 NlPIR\Data\GBKC.wordlist
............此处省略54个文件信息
相关资源
- elasticsearch-analysis-ik-6.2.4插件
- ik中文分词词库30万中文分词词库(含
- 正向最大匹配中文分词算法
- 中文文本自动分词和标注
- 测试中文分词.rar
- 最新中文分词工具的词库
- zw_NlPIR.zip
- 微软亚洲研究院中文分词语料库
- jieba分词词典和停用词
- Solr6.5 IK分词器
- hanlp-1.7.2-release.zip
- IK分词solr5.0.0
- 中文分词用的词典文件
- 屏幕取词源码-可二次开发
- 中文分词+关键字提取
- 金融词条 25万 分词处理
- SCWS 中文分词
- HMM隐马尔可夫模型用于中文分词
- 基于svm的中文文本分类系统
- 搜狗分类词库2018
- 中文地址分词及匹配项目
- 中文词库(120万带IDF权重)
- 搜狗语料库已分词
- 小黄鸡语料库分词以及未分词
- 打包elasticsearch_2.4.5以及对应的ik_1.1
- 分词大词库,共366万,普通情况下,
- CRF,LSTM,最大后向匹配法实现中文分
- 结巴分词包软件
- 香港城市大学语料库;微软亚洲研究
- NLPIR汉语分词系统201810最新版.zip
评论
共有 条评论