资源简介
中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis
System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009
用户词典接口扩展
用户可以动态增加、删除用户词典中的词,调节分词的效果。提高了用户词典使用的灵活性。
分词粒度可调
可以控制分词结果的粒度。共享版本提供两种分词粒度,标准粒度和粗粒度,满足不同用户的需求。
词性标注功能加强
多种标注级的选择,系统可供选择的标注级有:计算所一级标注级,计算所二级标注集,北大一级标注集,北大二级标注集。
关键词提取
自动抽取出能很好地代表文档主题的若干个词或短语。关键词抽取技术广泛应用于信息检索、文本分类/聚类、信息过滤、文档摘要等各种智能文本信息处理领域,具有很好的应用价值。
指纹提取
根据文章的内容,结构,词语间的关系,分析出能够表示该文章的语义指纹,使用数字序列表示。
代码片段和文件信息
// win_cDemo.cpp : 定义控制台应用程序的入口点。
//
#include “stdafx.h“
#include “win_cDemo.h“
#include
#include
using namespace std;
#ifdef _DEBUG
#define new DEBUG_NEW
#endif
#include “ICTCLAS30.h“
// 唯一的应用程序对象
CWinApp theApp;
using namespace std;
int _tmain(int argc TCHAR* argv[] TCHAR* envp[])
{
_CrtSetDbgFlag ( _CRTDBG_ALLOC_MEM_DF | _CRTDBG_LEAK_CHECK_DF );//| _CRTDBG_CHECK_ALWAYS_DF | _CRTDBG_CHECK_CRT_DF );
_CrtDumpMemoryLeaks();
_CrtSetBreakAlloc(129);
_crtBreakAlloc = 77;
int nRetCode = 0;
// 初始化 MFC 并在失败时显示错误
if (!AfxWinInit(::GetModuleHandle(NULL) NULL ::GetCommandLine() 0))
{
// TODO: 更改错误代码以符合您的需要
_tprintf(_T(“致命错误: MFC 初始化失败\n“));
nRetCode = 1;
}
else
{
// TODO: 在此处为应用程序的行为编写代码。
printf(“hello world!\n“);
//init ICTCLAS
if(!ICTCLAS_Init())
{
printf(“ICTCLAS INIT FAILED!\n“);
system(“pause“);
return -1;
}
printf(“ICTCLAS init success!\n“);
////未加词典
char sString[1000] = “少儿少儿节目节目节目节目节目节目节目节目节目节目节目节目节目“;
int nCount = ICTCLAS_GetParagraphProcessAWordCount(sString);
result_t *result =(result_t*)malloc(sizeof(result_t)*nCount);
ICTCLAS_ParagraphProcessAW(nCountresult);//获取结果存到客户的内存中
for (int i=0; i {
char buf[100];
memset(buf 0 100);
int index = result[i].start;
memcpy(buf(void *)(sString+index) result[i].length);
printf(“%s\t“ buf);
printf(“%s\t“ result[i].sPOS);
switch(result[i].word_type)
{
case 0:
printf(“核心词典\n“);
break;
case 1:
printf(“用户词典\n“);
break;
case 2:
printf(“领域词典\n“);
break;
default:break;
}
}
printf(“\n--------------------------------------\n“);
result_t *resultKey = (result_t*)malloc(sizeof(result_t)*nCount);
int nCountKey;
ICTCLAS_KeyWord(resultKey nCountKey);
for (int i=0; i {
char buf[100];
memset(buf 0 100);
int index = resultKey[i].start;
memcpy(buf(void *)(sString+index) resultKey[i].length);
printf(“%s\t%d\n“ buf resultKey[i].freq);
}
free(resultKey);
free(result);
unsigned long lFinger = ICTCLAS_FingerPrint();
const char * sResult;
//printf(“Before User-defined dictionary used:\n“);
//sResult = ICTCLAS_ParagraphProcess(sString1);
//printf(“%s\n“sResult);
//ICTCLAS_ImportUserDict(“userdict.txt“);
//printf(“import user words!\n“);
//while (true)
//for (int k=0; k<3;k++)
{
string s;
cout<<“insert the user word:“;
getline(cin s);
cout<< endl;
ICTCLAS_AddUserWord(s.c_str());
sResult = ICTCLAS_ParagraphProcess(sString0);
sResult = ICTCLAS_ParagraphProcess(sString1);
printf(“%s\n“sResult);
ICTCLAS_SaveTheUsrDic();
}
////imp userdict
////ICTCLAS_ImportUserDict(“userdict.txt“);
////printf(“import %d user words!\n“iWordCount);
////加词典后
//printf(“After User-defined dictionary
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 262144 2009-02-15 16:12 windows_C_32\api\ICTCLAS30.dll
文件 11718 2009-02-15 14:52 windows_C_32\api\ICTCLAS30.h
文件 6470 2009-02-15 16:12 windows_C_32\api\ICTCLAS30.lib
目录 0 2009-02-19 13:24 windows_C_32\api
文件 4297124 2009-02-19 12:11 windows_C_32\bin\Setup.exe
目录 0 2009-02-19 14:04 windows_C_32\bin
文件 302232 2009-02-19 09:55 windows_C_32\doc\ICTCLAS2009接口文档.doc
文件 61952 2008-08-23 18:22 windows_C_32\doc\ICTPOS3.0汉语词性标记集.doc
目录 0 2009-02-19 14:04 windows_C_32\doc
文件 4876 2009-02-18 15:26 windows_C_32\readme.txt
文件 4876 2009-02-18 15:26 windows_C_32\sample\windows_cDemo_32_sample\readme.txt
文件 4883 2009-02-18 15:18 windows_C_32\sample\windows_cDemo_32_sample\readme.txt.bak
文件 3183 2008-06-11 15:53 windows_C_32\sample\windows_cDemo_32_sample\UpgradeLog.xm
文件 716 2009-02-03 16:34 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Configure.xm
文件 3520144 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\BiWord.big
文件 65540 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\charset.type
文件 1696620 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\CoreDict.pdat
文件 1786424 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\CoreDict.pos
文件 478168 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\CoreDict.unig
文件 262236 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\FieldDict.pdat
文件 72 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\FieldDict.pos
文件 1978128 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\GranDict.pdat
文件 1778776 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\GranDict.pos
文件 37253 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\ICTCLAS30.ctx
文件 288 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\ICTCLAS_First.map
文件 406 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\ICTPOS.map
文件 2213 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\nr.ctx
文件 3008 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\nr.fsa
文件 1757200 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\nr.role
文件 307 2009-01-16 13:48 windows_C_32\sample\windows_cDemo_32_sample\win_cDemo\Data\PKU.map
............此处省略36个文件信息
评论
共有 条评论