资源简介

Yard中文分词系统采用改进了的正向最大匹配算法,利用双字哈希进行词典组织解决了中文分词中最长词带来的分词效率低下问题。 本次发布的版本为0.1.1版能对中文词组进行完美的切分同时利用词组的词频和词性解决了歧义划分的问题,但是对人名、地名、组织名、英文、数字等还不能进行很好的切分,在下一个版本中将解决这些问题。中文词典应用了搜狗实验室提供的互联网词库。纯java编写源码和词典在附件中可以下载。本软件为开源软件你可以进行任何修改以适应你的需求,如果你加入了新功能请发送一份副本给我,我们一同完善改进。 分词精度为多少?朋友们自己去测试吧不会让你失望的!!

资源截图

代码片段和文件信息

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件       5712  2009-06-11 22:35  Yard0.1.1\bin\net\yard\dictionary\InitDictionary.class

     文件       2267  2009-06-11 22:35  Yard0.1.1\bin\net\yard\dictionary\LastPart.class

     文件       1620  2009-06-11 22:35  Yard0.1.1\bin\net\yard\dictionary\PartOne.class

     文件       1231  2009-06-11 22:35  Yard0.1.1\bin\net\yard\dictionary\PartTwo.class

     文件        827  2009-06-11 22:35  Yard0.1.1\bin\net\yard\dictionary\WordAttribute.class

     文件        967  2009-06-11 22:35  Yard0.1.1\bin\net\yard\impl\Pretreatment.class

     文件       2921  2009-06-15 11:29  Yard0.1.1\bin\net\yard\impl\SplitEntrance.class

     文件       1523  2009-06-11 22:35  Yard0.1.1\bin\net\yard\impl\TokendWords.class

     文件      15750  2009-06-15 12:55  Yard0.1.1\bin\net\yard\impl\TokenImpl.class

     文件    2961902  2009-06-15 11:24  Yard0.1.1\data\SogouLabDic.dic

     文件         60  2009-06-11 16:24  Yard0.1.1\yard.bat

     目录          0  2009-06-15 12:56  Yard0.1.1\bin\net\yard\dictionary

     目录          0  2009-06-15 12:56  Yard0.1.1\bin\net\yard\impl

     目录          0  2009-06-15 12:56  Yard0.1.1\bin\net\yard

     目录          0  2009-06-15 12:56  Yard0.1.1\bin\net

     目录          0  2009-06-15 12:56  Yard0.1.1\bin

     目录          0  2009-06-15 11:26  Yard0.1.1\data

     目录          0  2009-06-15 10:37  Yard0.1.1

----------- ---------  ---------- -----  ----

              2994780                    18


评论

共有 条评论