资源简介
整合 使用ICTCLAS2013(NlPIR) x64 的中文分词,分词的速度和效果都不错。然后就是对文本进行的去停用词以及特殊符号(哈工大停用词库)的去除,这些特殊符号还有标点符号,以及文本中夹杂的数字和字母会对分词的效果产生影响。eclipse GBK 编码

代码片段和文件信息
import kevin.zhang.NLPIR;
public class TestNLPIR {
public static void main(String[] args) throws Exception {
try {
String sInput = “张华平推出的NLPIR分词系统,又名ICTCLAS2013,新增新词识别、关键词提取、微博分词功能。“;
// 自适应分词
test(sInput);
} catch (Exception ex) {
}
}
public static void test(String sInput) {
try {
NLPIR testNLPIR = new NLPIR();
String argu = ““;
System.out.println(“NLPIR_Init“);
if (testNLPIR.NLPIR_Init(argu.getBytes(“GBK“) 0) == false) {
System.out.println(“Init Fail!“);
return;
}
// 导入用户词典前
byte nativeBytes[] = testNLPIR.NLPIR_ParagraphProcess(sInput.getBytes(“GBK“) 1);
String nativeStr = new String(nativeBytes 0 nativeBytes.length “GBK“);
System.out.println(“分词结果为: “ + nativeStr);
// 初始化分词组件
String argu1 = “test/test.TXT“;
String argu2 = “test/test_result1.TXT“;
nativeBytes = testNLPIR.NLPIR_GetFileNewWords(argu1.getBytes(“GBK“) 50 true);
// 如果是处理内存,可以调用testNLPIR.NLPIR_GetNewWords
nativeStr = new String(nativeBytes 0 nativeBytes.length “GBK“);
System.out.println(“新词识别结果为: “ + nativeStr);
nativeBytes = testNLPIR.NLPIR_GetFileKeyWords(argu1.getBytes(“GBK“) 50 true);
// 如果是处理内存,可以调用testNLPIR.NLPIR_GetKeyWords
nativeStr = new String(nativeBytes 0 nativeBytes.length “GBK“);
System.out.println(“关键词识别结果为: “ + nativeStr);
testNLPIR.NLPIR_FileProcess(argu1.getBytes(“GBK“) argu2.getBytes(“GBK“) 0);
testNLPIR.NLPIR_NWI_Start();
testNLPIR.NLPIR_NWI_AddFile(argu1.getBytes(“GBK“));
testNLPIR.NLPIR_NWI_Complete();
nativeBytes = testNLPIR.NLPIR_NWI_GetResult(true);
nativeStr = new String(nativeBytes 0 nativeBytes.length “GBK“);
System.out.println(“新词识别结果 “ + nativeStr);
testNLPIR.NLPIR_NWI_Result2UserDict();// 新词识别结果
argu2 = “test/test_result2.TXT“;
testNLPIR.NLPIR_FileProcess(argu1.getBytes(“GBK“) argu2.getBytes(“GBK“) 1);
testNLPIR.NLPIR_Exit();
} catch (Exception ex) {
}
}
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 301 2013-12-23 22:46 NlPIR\.classpath
文件 381 2013-12-23 22:46 NlPIR\.project
文件 107 2013-12-23 23:05 NlPIR\.settings\org.eclipse.core.resources.prefs
文件 598 2013-12-23 22:46 NlPIR\.settings\org.eclipse.jdt.core.prefs
文件 388 2013-12-23 23:11 NlPIR\20131223.log
文件 1164 2013-12-23 23:05 NlPIR\bin\kevin\zhang\NLPIR.class
文件 2292736 2013-04-15 14:22 NlPIR\bin\NLPIR_JNI.dll
文件 3415 2013-12-25 15:39 NlPIR\bin\SimilarityCompution\NewFileExcludeStopWord.class
文件 2399 2013-12-25 10:42 NlPIR\bin\TestNLPIR.class
文件 286196 2012-05-18 21:36 NlPIR\Data\BIG2GBK.map
文件 468456 2012-05-18 21:33 NlPIR\Data\BIG5.pdat
文件 158695 2012-05-18 21:33 NlPIR\Data\BIG5.wordlist
文件 3520144 2009-01-16 13:48 NlPIR\Data\BiWord.big
文件 65540 2012-11-08 20:45 NlPIR\Data\charset.type
文件 856 2012-11-14 20:17 NlPIR\Data\Configure.xm
文件 1696620 2009-01-16 13:48 NlPIR\Data\CoreDict.pdat
文件 1786424 2009-01-16 13:48 NlPIR\Data\CoreDict.pos
文件 478168 2009-01-16 13:48 NlPIR\Data\CoreDict.unig
文件 262236 2009-01-16 13:48 NlPIR\Data\FieldDict.pdat
文件 72 2009-01-16 13:48 NlPIR\Data\FieldDict.pos
文件 549204 2012-05-18 21:34 NlPIR\Data\GBK.pdat
文件 166985 2012-05-18 21:34 NlPIR\Data\GBK.wordlist
文件 286196 2012-05-18 21:36 NlPIR\Data\GBK2BIG.map
文件 286196 2012-05-18 21:37 NlPIR\Data\GBK2GBKC.map
文件 286196 2012-05-18 21:37 NlPIR\Data\GBK2UTF.map
文件 550848 2012-12-22 11:50 NlPIR\Data\GBKA.pdat
文件 166985 2012-12-22 11:50 NlPIR\Data\GBKA.wordlist
文件 286196 2012-12-22 11:50 NlPIR\Data\GBKA2UTF.map
文件 550848 2012-05-18 21:34 NlPIR\Data\GBKC.pdat
文件 166985 2012-05-18 21:34 NlPIR\Data\GBKC.wordlist
............此处省略54个文件信息
相关资源
- sphinx中文分词 xdict_1.1.tar.gz
- 人民日报语料库中文分词语料库
- 带词性标注的中文分词词典
- 基于双向LSTM+tensorflow中文分词
- Luence的与盘古分词的使用软件
- 最新整理 盘古分词 dct词库文件 7205
- people_daily_2014_corpus.zip
- 维基百科中文语料已分词
- 盘古分词 DictManage.exe
- lucene.net+盘古分词多条件全文检索并匹
- lucene.net2.3.1.2盘古分词演示程序.rar
- 新版盘古分词词库
- Paoding中文分词
- 搜狗中文文本分析语料库
- 北大人民日报语料库1998两份带词性标
- coreseek中日韩分词词库
- tfidf特征提取
- jieba+百度分词词库
- 中科院汉语词法分析系统ICTCLAS安装包
- 文本爬取和分词预处理.pdf
- msra Ner+ 分词
- 中文分词字典
- ICTCLAS2009版中文分词系统
- 最新中文分词词库整理
- 中文分词词库
- 汉语分词语料库
- 汉语文本聚类
- freeICTCLAS中科院中文分词(拼音中文输
- solr4.3的IK分词器
- ik-analyzer
评论
共有 条评论