资源简介
一个课程作业,写的比较渣!!!,包含了英文文本的去特殊符号、去停用词、词干化、计算文本相似度、PCA降维,最后K-means聚类以及可视化等
代码片段和文件信息
#coding:utf-8
import os
import re
def Delete():
for i in range(500):
f=open(‘E:/English/SourceData/‘+str(i)+‘.txt‘‘rb‘)
content=f.read().decode(‘utf-8‘)
del_content=re.sub(r“[\s\n\d#=||&:?<>}{@+\.\!\/.$%^*_\---(+)\“\‘]+|[+——!,。??、\[~@=《》:#;::\]’“”‘¥%……&*()]+]“‘\n‘content)
news=‘‘.join(del_content).replace(‘ ‘‘‘)
f_w=open(‘E:/English/DeleteChar/‘+‘New_‘+str(i)+‘.txt‘‘w‘)
f_w.write(news.lower())
Delete()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2017-11-27 14:55 EnglishChuLi\
目录 0 2017-11-27 14:56 EnglishChuLi\.idea\
文件 398 2017-11-21 10:32 EnglishChuLi\.idea\EnglishChuLi.iml
文件 212 2017-11-21 10:32 EnglishChuLi\.idea\misc.xm
文件 276 2017-11-21 10:31 EnglishChuLi\.idea\modules.xm
文件 24817 2017-11-27 14:56 EnglishChuLi\.idea\workspace.xm
文件 520 2017-11-25 20:27 EnglishChuLi\DeleteChar.py
文件 724 2017-11-25 20:28 EnglishChuLi\DeleteStop.py
文件 1093 2017-11-21 14:42 EnglishChuLi\GetEnglishInformation.py
文件 706 2017-11-25 20:48 EnglishChuLi\Kbean.py
文件 732 2017-11-25 20:45 EnglishChuLi\PCA.py
文件 1753 2017-11-25 20:31 EnglishChuLi\similary.py
文件 836 2017-11-25 20:29 EnglishChuLi\SnowballStemmer.py
评论
共有 条评论