资源简介

内含7kb的停用词词典、源码、测试数据;词典共收录了1208个常见停用词,源码基于python3,下载解压后即可运行测试数据,且效率非常高。欢迎下载使用,如在使用过程中有任何问题,欢迎留言交流。

资源截图

代码片段和文件信息

from time import sleep

f1 = open(‘./data.txt‘‘r‘)  #需要去除停用词的数据
f2 = open(‘./stop_words.txt‘‘r‘)  #导入停用词词典
f3 = open(‘./result.txt‘‘w‘encoding=‘utf-8‘)  #存储结果
s = f2.read().split(‘\n‘)
for line in f1:
line = line.strip(‘\n‘).strip(‘ ‘)
line = line.split(‘ ‘)
sw = ‘‘
for ch in line:
flag = 0
for sh in s:
if sh==ch:
flag = 1
break
if flag==0:
sw = sw + ch + ‘ ‘
f3.write(sw + ‘\n‘)
f1.close()
f2.close()
f3.close()
print(‘\n[--finished--]‘)

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件         533  2019-01-29 16:23  DropStopWords\DropStopWords.py
     文件          73  2019-01-29 16:23  DropStopWords\data.txt
     文件          28  2019-01-29 16:23  DropStopWords\result.txt
     文件        7041  2018-11-23 23:04  DropStopWords\stop_words.txt
     目录           0  2019-01-29 16:23  DropStopWords\

评论

共有 条评论