资源简介
因为比赛需要用到结巴分词,所以写了一个关于结巴分词、词性标注以及停用词过滤的python程序。
代码片段和文件信息
# -*- coding: utf-8 -*-
“““
Created on Mon Oct 31 15:39:16 2016
@author: lcy
“““
import jieba
import jieba.posseg as pseg#用于词性标注
#分词
def part_word(fid1fid3):
for i in fid1.readlines():
data_line=i.strip()
wordList = jieba.cut(data_line.decode(“gbk“))#wordlist是一个生成器
outStr = ‘‘
for word in wordList:
outStr += word
outStr += ‘ ‘
fid3.write(outStr.strip().encode(‘gbk‘) + ‘\n‘)
print(type(wordList))
#词性标注
def ci_xing(fid1fid3):
for i in fid1.readlines():
data_line=i.strip()
words= pseg.cut(data_line.decode(“gbk“))#wordlist是一个生成器
outStr = ‘‘
for w in words:
outStr += w.word
outStr += ‘/‘
outStr += w.flag
outStr += ‘ ‘
fid3.write(outStr.strip().encode(‘gbk‘) + ‘\n‘)
#停用词过滤
def stop_word(fid1fid2fid3):
stopword=[]
for j in fid2.readlines():
stopword.append(j.strip().decode(“gbk“))#储存停用词表
#print j
for i in fid1.readlines():
data_line=i.strip()
wordList = jieba.cut(data_line.decode(“gbk“))#wordlist是一个生成器
outStr=‘‘
for word in wordList:
if word not in stopword:
outStr+=word
outStr+=‘ ‘
fid3.write(outStr.strip().encode(‘gbk‘) + ‘\n‘)
#主文件
def main():
fid1=open(‘pos.txt‘‘r‘)#读取文件
fid2=open(‘stopword.txt‘‘r‘)#读取停用词表
fid3=open(‘poss.txt‘‘w‘)#将要写入的文件
#stop_word(fid1fid2fid3)#停用词过滤
part_word(fid1fid2)#分词
#ci_xing(fid1fid2)#词性标注
fid1.close()
fid2.close()
fid3.close()
main()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2016-10-31 22:18 test\
目录 0 2016-10-31 18:50 test\jieba\
目录 0 2016-10-31 18:50 test\jieba\analyse\
文件 1423 2015-02-11 16:28 test\jieba\analyse\analyzer.py
文件 2183 2015-02-11 16:43 test\jieba\analyse\analyzer.pyc
文件 6471088 2013-12-05 13:24 test\jieba\analyse\idf.txt
文件 3490 2015-02-17 18:48 test\jieba\analyse\textrank.py
文件 3943 2015-03-20 11:02 test\jieba\analyse\textrank.pyc
文件 3492 2015-02-17 18:48 test\jieba\analyse\__init__.py
文件 4425 2015-03-20 11:02 test\jieba\analyse\__init__.pyc
文件 5420898 2015-02-11 16:27 test\jieba\dict.txt
目录 0 2016-10-31 18:50 test\jieba\finalseg\
文件 598842 2014-11-15 13:36 test\jieba\finalseg\prob_emit.p
文件 1356958 2015-02-11 16:28 test\jieba\finalseg\prob_emit.py
文件 513079 2015-02-14 21:06 test\jieba\finalseg\prob_emit.pyc
文件 62 2014-11-15 13:36 test\jieba\finalseg\prob_start.p
文件 97 2014-11-15 13:36 test\jieba\finalseg\prob_start.py
文件 215 2015-02-14 21:06 test\jieba\finalseg\prob_start.pyc
文件 146 2014-11-15 13:36 test\jieba\finalseg\prob_trans.p
文件 245 2014-11-15 13:36 test\jieba\finalseg\prob_trans.py
文件 316 2015-02-14 21:06 test\jieba\finalseg\prob_trans.pyc
文件 2816 2015-02-11 16:28 test\jieba\finalseg\__init__.py
文件 3319 2015-02-14 21:06 test\jieba\finalseg\__init__.pyc
目录 0 2016-10-31 18:50 test\jieba\posseg\
文件 1078947 2014-11-15 13:36 test\jieba\posseg\char_state_tab.p
文件 1679102 2015-02-11 16:28 test\jieba\posseg\char_state_tab.py
文件 817983 2015-02-11 16:40 test\jieba\posseg\char_state_tab.pyc
文件 1522393 2014-11-15 13:36 test\jieba\posseg\prob_emit.p
文件 4076462 2015-02-11 16:28 test\jieba\posseg\prob_emit.py
文件 1074415 2015-02-11 16:40 test\jieba\posseg\prob_emit.pyc
文件 6321 2014-11-15 13:36 test\jieba\posseg\prob_start.p
............此处省略19个文件信息
相关资源
- 第二版中文 高清带书签Flask Web开发:
- 基于深度学习Superpoint 的Python图像全景
- Python数据分析-pandas玩转Excel - 资料.
- python反编译工具Easy Python Decompiler
- Python性能分析与优化.pdf
- Python小说器
- numpy-1.13.1-cp27-none-win32.whl
- 机器学习对应的相关python代码SVM、C
- 中文文本聚类
- python 后台管理系统
- 声纹识别资料
- Introduction to time series.pdf + Deep Time Se
- OpenCV-Python中文教程
- 《廖雪峰Python2.7教程》高清完整PDF版
- Python标准库查询手册最新Python 3.3
- The Quick Python Book 3rd Edition.pdf
- Python学习思维导图
- OpenCV Python中文教程
- python for eclipse
- numpy-1.16.4.zip
- Python程序设计第3版- John M. Zelle 课件资
- Web Scraping with Python_Collecting Data from
- python TensorFlow 官方文档中文版
- Python3.6 中文文档.pdf
- 树莓派Python编程指南34705
- python项目源码
- Packt-Web.Scraping.with.Python.Richard Lawson
- Python编程实战:运用设计模式、并发
- 深入理解Python中文版.pdf
- QT5 Python GUI Programming Cookbook (2018)
评论
共有 条评论