资源简介
结巴分词包软件
代码片段和文件信息
# -*- coding: utf-8 -*-
from distutils.core import setup
LONGDOC = “““
jieba
=====
“结巴”中文分词:做最好的 Python 中文分词组件
“Jieba“ (Chinese for “to stutter“) Chinese text segmentation: built to
be the best Python Chinese word segmentation module.
完整文档见 ‘‘README.md‘‘
GitHub: https://github.com/fxsjy/jieba
特点
====
- 支持三种分词模式:
- 精确模式,试图将句子最精确地切开,适合文本分析;
- 全模式,把句子中所有的可以成词的词语都扫描出来
速度非常快,但是不能解决歧义;
- 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
- 支持繁体分词
- 支持自定义词典
- MIT 授权协议
在线演示: http://jiebademo.ap01.aws.af.cm/
安装说明
========
代码对 Python 2/3 均兼容
- 全自动安装: ‘‘easy_install jieba‘‘ 或者 ‘‘pip install jieba‘‘ / ‘‘pip3 install jieba‘‘
- 半自动安装:先下载 https://pypi.python.org/pypi/jieba/ ,解压后运行
python setup.py install
- 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录
- 通过 ‘‘import jieba‘‘ 来引用
“““
setup(name=‘jieba‘
version=‘0.38‘
description=‘Chinese Words Segementation Utilities‘
long_description=LONGDOC
author=‘Sun Junyi‘
author_email=‘ccnusjy@gmail.com‘
url=‘https://github.com/fxsjy/jieba‘
license=“MIT“
classifiers=[
‘Intended Audience :: Developers‘
‘License :: OSI Approved :: MIT License‘
‘Operating System :: OS Independent‘
‘Natural Language :: Chinese (Simplified)‘
‘Natural Language :: Chinese (Traditional)‘
‘Programming Language :: Python‘
‘Programming Language :: Python :: 2‘
‘Programming Language :: Python :: 2.6‘
‘Programming Language :: Python :: 2.7‘
‘Programming Language :: Python :: 3‘
‘Programming Language :: Python :: 3.2‘
‘Programming Language :: Python :: 3.3‘
‘Programming Language :: Python :: 3.4‘
‘Topic :: Text Processing‘
‘Topic :: Text Processing :: Indexing‘
‘Topic :: Text Processing :: Linguistic‘
]
keywords=‘NLPtokenizingChinese word segementation‘
packages=[‘jieba‘]
package_dir={‘jieba‘:‘jieba‘}
package_data={‘jieba‘:[‘*.*‘‘finalseg/*‘‘analyse/*‘‘posseg/*‘]}
)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2016-08-05 02:02 jieba-master\
文件 483 2016-08-05 02:02 jieba-master\.gitattributes
文件 2055 2016-08-05 02:02 jieba-master\.gitignore
文件 6700 2016-08-05 02:02 jieba-master\Changelog
文件 1075 2016-08-05 02:02 jieba-master\LICENSE
文件 32 2016-08-05 02:02 jieba-master\MANIFEST.in
文件 29105 2016-08-05 02:02 jieba-master\README.md
目录 0 2016-08-05 02:02 jieba-master\extra_dict\
文件 8583143 2016-08-05 02:02 jieba-master\extra_dict\dict.txt.big
文件 1552161 2016-08-05 02:02 jieba-master\extra_dict\dict.txt.small
文件 4086745 2016-08-05 02:02 jieba-master\extra_dict\idf.txt.big
文件 222 2016-08-05 02:02 jieba-master\extra_dict\stop_words.txt
目录 0 2016-08-05 02:02 jieba-master\jieba\
文件 18816 2016-08-05 02:02 jieba-master\jieba\__init__.py
文件 2371 2016-08-05 02:02 jieba-master\jieba\__main__.py
文件 1222 2016-08-05 02:02 jieba-master\jieba\_compat.py
目录 0 2016-08-05 02:02 jieba-master\jieba\analyse\
文件 501 2016-08-05 02:02 jieba-master\jieba\analyse\__init__.py
文件 1403 2016-08-05 02:02 jieba-master\jieba\analyse\analyzer.py
文件 6200957 2016-08-05 02:02 jieba-master\jieba\analyse\idf.txt
文件 3772 2016-08-05 02:02 jieba-master\jieba\analyse\textrank.py
文件 4310 2016-08-05 02:02 jieba-master\jieba\analyse\tfidf.py
文件 5071852 2016-08-05 02:02 jieba-master\jieba\dict.txt
目录 0 2016-08-05 02:02 jieba-master\jieba\finalseg\
文件 2397 2016-08-05 02:02 jieba-master\jieba\finalseg\__init__.py
文件 1275441 2016-08-05 02:02 jieba-master\jieba\finalseg\prob_emit.p
文件 1321732 2016-08-05 02:02 jieba-master\jieba\finalseg\prob_emit.py
文件 109 2016-08-05 02:02 jieba-master\jieba\finalseg\prob_start.p
文件 93 2016-08-05 02:02 jieba-master\jieba\finalseg\prob_start.py
文件 260 2016-08-05 02:02 jieba-master\jieba\finalseg\prob_trans.p
文件 241 2016-08-05 02:02 jieba-master\jieba\finalseg\prob_trans.py
............此处省略52个文件信息
评论
共有 条评论