• 大小: 6KB
    文件类型: .rar
    金币: 1
    下载: 0 次
    发布日期: 2021-06-09
  • 语言: Java
  • 标签: Ngram  java  分词  

资源简介

该程序调用IKAnalyzer3.2.3.jar提供的接口实现了对汉字词的简单分词,目前尚不支持对带有标点符号的段落的解析。

资源截图

代码片段和文件信息

import java.io.IOException;
import org.wltea.analyzer.*;
import org.wltea.analyzer.dic.Dictionary;

import java.io.*;
import java.util.ArrayList;
import java.util.List;
public class IKAnalyzerDemo {
public static void main(String args[]) throws IOException{
String str=“管理和服务必须做到最好这是一种态度所以我们应该好好学习同学们听明白了吗“ ;
//String str=“如今预付费式的会员卡已经成为都市人的一种时尚“;
List list=new ArrayList();
list.add(“必须做到“);
Dictionary.loadExtendWords(list);
list.clear();
StringReader in = new StringReader(str);
IKSegmentation ik=new IKSegmentation(intrue);
String out=““;
int i=0;
while(true){
Lexeme token=new Lexeme(0 0 0 0);
token=ik.next();
if(token==null)
break;
str=token.getLexemeText();
int pos=token.getBegin();
if(pos str=““;
else{
str=str+“/“;
i++;
}
out=out+str;
}
System.out.println(out);

}
}

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件      19968  2011-10-31 09:25  说明.doc

     文件        413  2011-10-31 09:22  Ngram\.classpath

     文件        381  2011-10-24 10:08  Ngram\.project

     文件        629  2011-10-24 10:08  Ngram\.settings\org.eclipse.jdt.core.prefs

     文件       2078  2011-10-31 09:22  Ngram\bin\IKAnalyzerDemo.class

     文件        161  2011-10-31 09:18  Ngram\src\ext_stopword.dic

     文件        479  2009-09-22 11:37  Ngram\src\IKAnalyzer.cfg.xml

     文件        984  2011-10-31 09:21  Ngram\src\IKAnalyzerDemo.java

     目录          0  2011-10-31 09:36  Ngram\.settings

     目录          0  2011-10-31 09:36  Ngram\bin

     目录          0  2011-10-31 09:36  Ngram\src

     目录          0  2011-10-31 09:36  Ngram

----------- ---------  ---------- -----  ----

                25093                    12


评论

共有 条评论