• 大小: 49.06MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-06-20
  • 语言: 其他
  • 标签: ICTCLAS2015  

资源简介

中科院的中文分词系统ICTCLAS是从事文本挖掘研究工作的学者们所广泛使用的软件,在此就不多作介绍了。这是该软件的2015版本,欢迎各位学者下载使用。

资源截图

代码片段和文件信息

// win_cDemo.cpp : 定义控制台应用程序的入口点。
//

#include “../include/NLPIR.h“
#include 
#include 
#include 
#include 

#ifndef OS_LINUX
#pragma comment(lib “../../../bin/ICTCLAS2013/NLPIR.lib“)
#else
#include
#endif

#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 

#ifndef OS_LINUX
#include 
#include 
#include 
#include 
#include 
#define makeDirectory _mkdir
#pragma warning(disable:4786)
#define PATH_DELEMETER  “\\“
#define LONG64U __int64
#define DATE_DELEMETER  “/“
//#include 
#define SLEEP(x) Sleep(x*1000)
#else
#include 
#include 
#include  
#include 
#include 
#include 
#include 
#include 
#include 
#define makeDirectory(x) mkdir(x 0777)    // 这步骤必须,否则文件夹只读
//#define stricmp strcasecmp
//#define strnicmp strncasecmp
#define Sleep(x) sleep(x/1000)
#define min(ab) (((a)<(b)) ? (a) : (b))
#define _stricmp(XY) strcasecmp((X)(Y))
#define stricmp(XY) strcasecmp((X)(Y))
#define strnicmp(XYZ) strncasecmp((X)(Y)(Z))
#define _fstat(XY)     fstat((X)(Y))
#define _fileno(X)     fileno((X))
#define _stat           stat
#define _getcwd         getcwd
#define _off_t          off_t
#define PATH_DELEMETER  “/“
#define DATE_DELEMETER  “/“
#define LONG64U long long
#include 
#define SLEEP(x) sleep(x)
#endif

void SplitGBK(const char *sInput);
void SplitBIG5();
void SplitUTF8();
void testNewWord(int code);
long ReadFile(const char *sFilenamechar **pBuffer);
int testBug()
{

if(NLPIR_Init(“../../“)) 

for(int j=0; j<3000; ++j) 

if (j==1963)
{
int nDebug=1;
}
std::string str = “携号转网拟扩大试验范围,各方不积极形同鸡肋。“; 
int nCount = 0; 
const result_t *pVecResult = NLPIR_ParagraphProcessA(str.c_str() &nCount); 
//根据pVecResult和nCount处理关键词等 
for(int i=0; i
char szKey[16] = { 0 }; 
memcpy(szKey str.c_str() + pVecResult[i].start (pVecResult[i].length < 16) ? pVecResult[i].length : 16 - 1); 
//cout<

printf(“%d\r“j);

NLPIR_Exit(); 

else 

//cout<<“nlpir init failed.“< printf(“nlpir init failed.\n“);


return 0; 
}
/*********************************************************************
 *
 *  Func Name  : Read(const char *sFilenamechar *pBuffer)
 *  Description: 
 *        Read file to a buffer and return the file size
 *              
 *
 *  Parameters : 
 *               sFilename: filename;
 *               pBuffer: buffer
 *
 *  Returns    : _off_t file size
 *  Author     : Kevin Zhang  
 *  History    : 
 *              1.create 2003-11-28
 **********************************************************

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2014-12-25 15:00  ICTCLAS2015\
     目录           0  2014-12-25 15:00  ICTCLAS2015\bin\
     目录           0  2014-12-25 15:00  ICTCLAS2015\bin\ICTCLAS2015\
     文件     1587200  2013-12-19 21:08  ICTCLAS2015\bin\ICTCLAS2015\ICTCLAS-tools.exe
     文件          33  2013-09-01 18:30  ICTCLAS2015\bin\ICTCLAS2015\importuserdict.bat
     文件     1722880  2014-12-25 11:36  ICTCLAS2015\bin\ICTCLAS2015\NLPIR.dll
     文件       11636  2014-01-02 10:07  ICTCLAS2015\bin\ICTCLAS2015\NLPIR.lib
     文件     3165184  2014-12-25 11:34  ICTCLAS2015\bin\ICTCLAS2015\NLPIR_WinDemo.exe
     文件          22  2013-12-19 21:10  ICTCLAS2015\bin\ICTCLAS2015\userdic.txt
     目录           0  2014-12-25 15:00  ICTCLAS2015\Data\
     文件          92  2014-12-25 14:58  ICTCLAS2015\Data\20141225.err
     文件      286196  2012-05-18 21:36  ICTCLAS2015\Data\BIG2GBK.map
     文件      468456  2012-05-18 21:33  ICTCLAS2015\Data\BIG5.pdat
     文件      158695  2012-05-18 21:33  ICTCLAS2015\Data\BIG5.wordlist
     文件     3520144  2009-01-16 13:48  ICTCLAS2015\Data\BiWord.big
     文件       65540  2012-11-08 20:45  ICTCLAS2015\Data\charset.type
     文件        1084  2014-10-31 13:58  ICTCLAS2015\Data\Configure.xml
     文件     1696620  2009-01-16 13:48  ICTCLAS2015\Data\CoreDict.pdat
     文件     1786424  2009-01-16 13:48  ICTCLAS2015\Data\CoreDict.pos
     文件      478168  2009-01-16 13:48  ICTCLAS2015\Data\CoreDict.unig
     文件        3356  2014-03-10 18:33  ICTCLAS2015\Data\DocExtractor.user
     目录           0  2014-12-25 15:00  ICTCLAS2015\Data\English\
     文件     5306976  2013-12-29 20:11  ICTCLAS2015\Data\English\English.pdat
     文件     4496928  2013-12-29 20:14  ICTCLAS2015\Data\English\English.pos
     文件     1681620  2013-12-29 20:14  ICTCLAS2015\Data\English\English.ung
     文件     2874975  2013-12-29 20:14  ICTCLAS2015\Data\English\English.wordlist
     文件      978148  2013-12-29 20:14  ICTCLAS2015\Data\English\Irrel2regular.map
     文件     1167648  2013-12-17 23:03  ICTCLAS2015\Data\English\ne.pdat
     文件     1282112  2013-12-17 23:03  ICTCLAS2015\Data\English\ne.pos
     文件      668398  2013-12-17 23:03  ICTCLAS2015\Data\English\ne.wordlist
     文件      380016  2014-03-23 20:10  ICTCLAS2015\Data\FieldDict.pdat
............此处省略221个文件信息

评论

共有 条评论

相关资源