• 大小: 964KB
    文件类型: .rar
    金币: 2
    下载: 0 次
    发布日期: 2024-02-05
  • 语言: Java
  • 标签: ICTCLASjava  

资源简介

java实现中科大ICTCLAS2015分词,源代码和jar包之前都有提供。

资源截图

代码片段和文件信息

package com.code;

import java.io.UnsupportedEncodingException;

import utils.SystemParas;

import com.sun.jna.Library;
import com.sun.jna.Native;

public class NlpirTest {

// 定义接口CLibrary,继承自com.sun.jna.Library
public interface CLibrary extends Library {
// 定义并初始化接口的静态变量 这一个语句是来加载 dll 的, 注意 dll 文件的路径
//可以是绝对路径也可以是相对路径,只需要填写 dll 的文件名,不能加后缀
CLibrary Instance = (CLibrary) Native.loadLibrary(
“E:\\ICTCLAS2015\\bin\\ICTCLAS2015\\NLPIR“ CLibrary.class);
// 初始化函数声明
public int NLPIR_Init(String sDataPath int encoding
String sLicenceCode);
//执行分词函数声明
public String NLPIR_ParagraphProcess(String sSrc int bPOSTagged);
//提取关键词函数声明
public String NLPIR_GetKeyWords(String sLine int nMaxKeyLimit
boolean bWeightOut);
public String NLPIR_GetFileKeyWords(String sLine int nMaxKeyLimit
boolean bWeightOut);
//添加用户词典声明
public int NLPIR_AddUserWord(String sWord);//add by qp 2008.11.10
//删除用户词典声明
public int NLPIR_DelUsrWord(String sWord);//add by qp 2008.11.10
//文件分词声明
public String NLPIR_GetLastErrorMsg();
//退出函数声明
public void NLPIR_Exit();
public void NLPIR_FileProcess(byte[] bytes byte[] bytes2 int i);
}

public static String transString(String aidString String ori_encoding
String new_encoding) {
try {
return new String(aidString.getBytes(ori_encoding) new_encoding);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
return null;
}

public static void main(String[] args) throws Exception {
String argu = “E:\\ICTCLAS2015“;
//String system_charset = “GBK“;//GBK----0
String system_charset = “UTF-8“;
int charset_type = 1;

String utf8File = “test/18届三中全会.TXT“;
String utf8FileResult = “test/18届三中全会_result.TXT“;


int init_flag = CLibrary.Instance.NLPIR_Init(argu charset_type “0“);
String nativeBytes = null;

if (0 == init_flag) {
nativeBytes = CLibrary.Instance.NLPIR_GetLastErrorMsg();
System.err.println(“初始化失败!fail reason is “+nativeBytes);
return;
}

String sInput = “据悉,质检总局已将最新有关情况再次通报美方,要求美方加强对输华玉米的产地来源、运输及仓储等环节的管控措施,有效避免输华玉米被未经我国农业部安全评估并批准的转基因品系污染。好的坏事的办法的“;

//String nativeBytes = null;
try {
//参数0表示不带词性,参数1表示带有词性
nativeBytes = CLibrary.Instance.NLPIR_ParagraphProcess(sInput 0);

System.out.println(“分词结果为: “ + nativeBytes);

//增加用户词典后
CLibrary.Instance.NLPIR_AddUserWord(“要求美方加强对输 n“);
CLibrary.Instance.NLPIR_AddUserWord(“华玉米的产地来源 n“);
nativeBytes = CLibrary.Instance.NLPIR_ParagraphProcess(sInput 1);
System.out.println(“增加用户词典后分词结果为: “ + nativeBytes);
//删除用户词典后
CLibrary.Instance.NLPIR_DelUsrWord(“要求美方加强对输“);
nativeBytes = CLibrary.Instance.NLPIR_ParagraphProcess(sInput 1);
System.out.println(“删除用户词典后分词结果为: “ + nativeBytes);

CLibrary.Instance.NLPIR_FileProcess(utf8File.getBytes(“utf-8“) utf8FileResult.getBytes(“utf-8“)0);


int nCountKey = 0;
String nativeByte = CLibrary.

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件        381  2015-03-10 10:19  fenci\.project

     文件       4076  2015-03-10 13:43  fenci\src\com\code\NlpirTest.java

     文件       4156  2015-03-10 14:46  fenci\src\com\code\test1.java

     文件        209  2015-03-10 10:29  fenci\src\utils\SystemParas.java

     文件       1408  2015-03-10 10:30  fenci\src\utils\ReadConfigUtil.java

     文件        508  2015-03-10 10:38  fenci\bin\utils\SystemParas.class

     文件       2208  2015-03-10 10:38  fenci\bin\utils\ReadConfigUtil.class

     文件       3370  2015-03-10 13:43  fenci\bin\com\code\NlpirTest.class

     文件       3361  2015-03-10 14:46  fenci\bin\com\code\test1.class

     文件       1002  2015-03-10 14:46  fenci\bin\com\code\test1$CLibrary.class

     文件        598  2015-03-10 10:19  fenci\.settings\org.eclipse.jdt.core.prefs

     文件        353  2015-03-10 10:38  fenci\.classpath

     文件     914639  2015-03-10 10:36  fenci\jna-4.0.0.jar

     文件      66143  2015-03-10 11:22  fenci\test\18届三中全会.TXT

     文件       5593  2015-03-10 11:19  fenci\test\English.txt

     文件        157  2015-03-10 11:19  fenci\test\中英文混杂示例.txt

     文件       6528  2015-03-10 11:19  fenci\test\屌丝,一个字头的诞生.TXT

     文件        966  2015-03-10 11:19  fenci\test\用户词典.txt

     文件      33792  2015-03-10 11:19  fenci\test\迁钢语料\汉语词性对照表.doc

     文件       1012  2015-03-10 11:19  fenci\test\迁钢语料\炼钢.txt

     文件        585  2015-03-10 11:19  fenci\test\迁钢语料\迁钢.txt

     文件       1229  2015-03-10 11:19  fenci\test\迁钢语料\迁钢公司炼钢作业部润滑脂国产化降成本收效大.txt

     文件       1161  2015-03-10 11:19  fenci\test\迁钢语料\迁钢创新高.txt

     文件       1722  2015-03-10 11:19  fenci\test\迁钢语料\首钢迁钢无氟炼钢技术效益显著.txt

     文件        941  2015-03-10 11:19  fenci\test\迁钢语料\首钢迁钢通过超快冷工艺完成X70万吨订单.txt

     文件        820  2015-03-10 11:19  fenci\test\迁钢语料\首钢重组.txt

     文件        423  2015-03-10 11:19  fenci\test\docs\0-两栖战车亮相.txt

     文件        966  2015-03-10 11:19  fenci\test\docs\1-辽宁阜新官员涉嫌淫乱事件举报者被刑拘.txt

     文件       1035  2015-03-10 11:19  fenci\test\docs\2-辽宁一男子女厕用手机拍照被拘(图).txt

     文件       5271  2015-03-10 11:19  fenci\test\docs\3-两人打甲流疫苗后死亡 另有15例较严重异常反应.txt

............此处省略18个文件信息

评论

共有 条评论

相关资源