资源简介
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;这个是java版本
代码片段和文件信息
import kevin.zhang.NLPIR;
import java.util.*;
import java.io.*;
public class TestNLPIR {
public static void main(String[] args) throws Exception
{
try
{
String sInput = “本发明公开了一种组合椅子,它由若干张集成椅子组合而成,其中,每个集成椅子由数个具有相同位置插口的椅单元薄片依次排列后在插口上插入带有倒挂钩槽联结块组成。本发明通过精心设计的倒挂钩槽卡接结构,将很多椅单元薄片拼接成为一张椅子;然后再通过这些椅子的薄片间的错位,将这些椅子拼成一张椅子。这样人们平时摆放椅子时可以节省很多的空间。同时,在拆装椅子的过程中,通过人与物的互动,让人们体验到更多生活的乐趣。“;
//自适应分词
test(sInput);
}
catch (Exception ex)
{
}
}
public static void test(String sInput)
{
try
{
NLPIR testNLPIR = new NLPIR();
String argu = ““;
System.out.println(“NLPIR_Init“);
if (testNLPIR.NLPIR_Init(argu.getBytes(“utf-8“)1) == false)
{
System.out.println(“Init Fail!“);
return;
}
//导入用户词典前
byte nativeBytes[] = testNLPIR.NLPIR_ParagraphProcess(sInput.getBytes(“utf-8“) 1);//0或1表示是否标出词性
String nativeStr = new String(nativeBytes 0 nativeBytes.length “utf-8“);
String singleWord[] = nativeStr.split(“ “);
System.out.println(“分词结果为: “ + nativeStr);
//System.out.println(“分词结果为: “ + singleWord.length);
//初始化分词组件
// String argu1 = “test.TXT“;
// String argu2 = “test_result1.TXT“;
nativeBytes =testNLPIR.NLPIR_GetNewWords(sInput.getBytes(“utf-8“)50true);
//如果是处理内存,可以调用testNLPIR.NLPIR_GetNewWords
nativeStr = new String(nativeBytes 0 nativeBytes.length “utf-8“);
System.out.println(“新词识别结果为: “ + nativeStr);
nativeBytes =testNLPIR.NLPIR_GetKeyWords(sInput.getBytes(“utf-8“)50false);
//如果是处理内存,可以调用testNLPIR.NLPIR_GetKeyWords
nativeStr = new String(nativeBytes 0 nativeBytes.length “utf-8“);
System.out.println(“关键词识别结果为: “ + nativeStr);
// testNLPIR.NLPIR_FileProcess(argu1.getBytes(“utf-8“) argu2.getBytes(“utf-8“) 1);//分词结果写入文件
//
// testNLPIR.NLPIR_NWI_Start();
// testNLPIR.NLPIR_NWI_AddFile(argu1.getBytes(“utf-8“));
//
// testNLPIR.NLPIR_NWI_Complete();
//
// nativeBytes= testNLPIR.NLPIR_NWI_GetResult(true);
// nativeStr = new String(nativeBytes 0 nativeBytes.length “utf-8“);
//
// System.out.println(“新词识别结果 “ + nativeStr);
//
// testNLPIR.NLPIR_NWI_Result2UserDict();//新词识别结果
// argu2 = “test_result2.TXT“;
// testNLPIR.NLPIR_FileProcess(argu1.getBytes(“utf-8“) argu2.getBytes(“utf-8“) 1);
// testNLPIR.NLPIR_Exit();
}
catch (Exception ex)
{
}
}
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 226 2013-04-23 21:01 Win-32bit-JNI-lib\.classpath
文件 393 2013-04-23 21:01 Win-32bit-JNI-lib\.project
文件 121 2013-04-23 22:08 Win-32bit-JNI-lib\.settings\org.eclipse.core.resources.prefs
文件 286196 2012-05-18 21:36 Win-32bit-JNI-lib\Data\BIG2GBK.map
文件 468456 2012-05-18 21:33 Win-32bit-JNI-lib\Data\BIG5.pdat
文件 158695 2012-05-18 21:33 Win-32bit-JNI-lib\Data\BIG5.wordlist
文件 3520144 2009-01-16 13:48 Win-32bit-JNI-lib\Data\BiWord.big
文件 65540 2012-11-08 20:45 Win-32bit-JNI-lib\Data\charset.type
文件 856 2012-11-14 20:17 Win-32bit-JNI-lib\Data\Configure.xm
文件 1696620 2009-01-16 13:48 Win-32bit-JNI-lib\Data\CoreDict.pdat
文件 1786424 2009-01-16 13:48 Win-32bit-JNI-lib\Data\CoreDict.pos
文件 478168 2009-01-16 13:48 Win-32bit-JNI-lib\Data\CoreDict.unig
文件 262236 2009-01-16 13:48 Win-32bit-JNI-lib\Data\FieldDict.pdat
文件 72 2009-01-16 13:48 Win-32bit-JNI-lib\Data\FieldDict.pos
文件 549204 2012-05-18 21:34 Win-32bit-JNI-lib\Data\GBK.pdat
文件 166985 2012-05-18 21:34 Win-32bit-JNI-lib\Data\GBK.wordlist
文件 286196 2012-05-18 21:36 Win-32bit-JNI-lib\Data\GBK2BIG.map
文件 286196 2012-05-18 21:37 Win-32bit-JNI-lib\Data\GBK2GBKC.map
文件 286196 2012-05-18 21:37 Win-32bit-JNI-lib\Data\GBK2UTF.map
文件 550848 2012-12-22 11:50 Win-32bit-JNI-lib\Data\GBKA.pdat
文件 166985 2012-12-22 11:50 Win-32bit-JNI-lib\Data\GBKA.wordlist
文件 286196 2012-12-22 11:50 Win-32bit-JNI-lib\Data\GBKA2UTF.map
文件 550848 2012-05-18 21:34 Win-32bit-JNI-lib\Data\GBKC.pdat
文件 166985 2012-05-18 21:34 Win-32bit-JNI-lib\Data\GBKC.wordlist
文件 286196 2012-05-18 21:37 Win-32bit-JNI-lib\Data\GBKC2GBK.map
文件 1978128 2009-01-16 13:48 Win-32bit-JNI-lib\Data\GranDict.pdat
文件 1778776 2009-01-16 13:48 Win-32bit-JNI-lib\Data\GranDict.pos
文件 406 2009-01-16 13:48 Win-32bit-JNI-lib\Data\ICTPOS.map
文件 126 2012-12-22 16:00 Win-32bit-JNI-lib\Data\NewWord.lst
文件 37253 2009-01-16 13:48 Win-32bit-JNI-lib\Data\NLPIR.ctx
............此处省略28个文件信息
- 上一篇:jsp 物流信息管理系统
- 下一篇:SQLServer 2000的JDBC驱动程序
评论
共有 条评论