• 大小: 8KB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2021-06-06
  • 语言: 其他
  • 标签:

资源简介

一个课程作业,写的比较渣!!!,包含了英文文本的去特殊符号、去停用词、词干化、计算文本相似度、PCA降维,最后K-means聚类以及可视化等

资源截图

代码片段和文件信息

#coding:utf-8
import  os
import  re
def Delete():
    for i in range(500):
        f=open(‘E:/English/SourceData/‘+str(i)+‘.txt‘‘rb‘)
        content=f.read().decode(‘utf-8‘)
        del_content=re.sub(r“[\s\n\d#=||&:?<>}{@+\.\!\/.$%^*_\---(+)\“\‘]+|[+——!,。??、\[~@=《》:#;::\]’“”‘¥%……&*()]+]“‘\n‘content)
        news=‘‘.join(del_content).replace(‘ ‘‘‘)
        f_w=open(‘E:/English/DeleteChar/‘+‘New_‘+str(i)+‘.txt‘‘w‘)
        f_w.write(news.lower())
Delete()

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2017-11-27 14:55  EnglishChuLi\
     目录           0  2017-11-27 14:56  EnglishChuLi\.idea\
     文件         398  2017-11-21 10:32  EnglishChuLi\.idea\EnglishChuLi.iml
     文件         212  2017-11-21 10:32  EnglishChuLi\.idea\misc.xml
     文件         276  2017-11-21 10:31  EnglishChuLi\.idea\modules.xml
     文件       24817  2017-11-27 14:56  EnglishChuLi\.idea\workspace.xml
     文件         520  2017-11-25 20:27  EnglishChuLi\DeleteChar.py
     文件         724  2017-11-25 20:28  EnglishChuLi\DeleteStop.py
     文件        1093  2017-11-21 14:42  EnglishChuLi\GetEnglishInformation.py
     文件         706  2017-11-25 20:48  EnglishChuLi\Kbean.py
     文件         732  2017-11-25 20:45  EnglishChuLi\PCA.py
     文件        1753  2017-11-25 20:31  EnglishChuLi\similary.py
     文件         836  2017-11-25 20:29  EnglishChuLi\SnowballStemmer.py

评论

共有 条评论

相关资源