资源简介
内含7kb的停用词词典、源码、测试数据;词典共收录了1208个常见停用词,源码基于python3,下载解压后即可运行测试数据,且效率非常高。欢迎下载使用,如在使用过程中有任何问题,欢迎留言交流。
代码片段和文件信息
from time import sleep
f1 = open(‘./data.txt‘‘r‘) #需要去除停用词的数据
f2 = open(‘./stop_words.txt‘‘r‘) #导入停用词词典
f3 = open(‘./result.txt‘‘w‘encoding=‘utf-8‘) #存储结果
s = f2.read().split(‘\n‘)
for line in f1:
line = line.strip(‘\n‘).strip(‘ ‘)
line = line.split(‘ ‘)
sw = ‘‘
for ch in line:
flag = 0
for sh in s:
if sh==ch:
flag = 1
break
if flag==0:
sw = sw + ch + ‘ ‘
f3.write(sw + ‘\n‘)
f1.close()
f2.close()
f3.close()
print(‘\n[--finished--]‘)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 533 2019-01-29 16:23 DropStopWords\DropStopWords.py
文件 73 2019-01-29 16:23 DropStopWords\data.txt
文件 28 2019-01-29 16:23 DropStopWords\result.txt
文件 7041 2018-11-23 23:04 DropStopWords\stop_words.txt
目录 0 2019-01-29 16:23 DropStopWords\
- 上一篇:高效爬取微博数据python3实现
- 下一篇:PCV---python工具包.zip
相关资源
- 高效爬取微博数据python3实现
- python3.4中文学习手册chm
- python3网络爬虫与开发实战崔庆才PDF百
- python300G视频书籍教程.zip
- PYQT5+图片拖拽
- python3-bayes朴素贝叶斯
- 最近邻kNN-python3源码和数据
- 基于百度API抓取公交站点经纬度数据
- sublime_package_control-python3.zip
- python爬取新浪微博源代码
- python3.5和python3.6的anaconda,以及pycha
- 廖雪峰最新Python3教程
- 小甲鱼零基础入门学习Python+全套源码
- pygraphviz python3.4 轮子
- python3程序设计习题答案第3版
- 动态规划例题源代码
- 深度学习 莫烦 Keras源代码
- python3.8爬取拉勾教育mp4视频解密m3u8到
- anaconda+python3.5
- jpype1for python3.6
- 漏洞扫描器源代码
- Tensorflow笔记-中国大学全部讲义源代码
- Anaconda3-5.3.1-Windows-x86_64 (Python3.x版本
- Python3—EM&GMM;
- pycrypto-2.6.1-cp36-cp36m-win_amd64.whl
- Python3.x+Pyqt5实现主窗体与子窗体相互
- 小甲鱼pythons视频+课件+源代码(96天)
- Python3.6.4+Django2.0.2 单表的增删改查和
- Anaconda历史版本Python3.6版本.zip
- Student 学习python3.0
评论
共有 条评论