资源简介
课程作业,是对中文文本的获取、删除特殊符号、删除停用词、分词、最后计算文本之间的相似度、降维、Kmeans聚类以及可是化等
代码片段和文件信息
#coding:utf-8
import jieba
import os
def FenChi():
for i in range(505):
f = open(‘E:\\Chinese\\DeleteChar\\New_‘ + str(i) + ‘.txt‘ ‘rb‘)
content = f.read()
seg_list=jieba.cut(contentcut_all=False)
content_fenchi = list((‘\n‘.join(seg_list)))
content_fenchi=‘‘.join(content_fenchi)
f_w = open(‘E:\\Chinese\\FenCidata\\New_FenChi_‘ + str(i) + ‘.txt‘ ‘w‘)
f_w.write(content_fenchi)
FenChi()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2017-11-27 16:55 ChineseChuLi\
目录 0 2017-11-27 17:07 ChineseChuLi\.idea\
目录 0 2017-11-21 19:18 ChineseChuLi\.idea\.idea\
文件 284 2017-11-21 19:17 ChineseChuLi\.idea\.idea\.idea.iml
文件 212 2017-11-21 19:17 ChineseChuLi\.idea\.idea\misc.xm
文件 262 2017-11-21 19:17 ChineseChuLi\.idea\.idea\modules.xm
文件 7355 2017-11-21 19:18 ChineseChuLi\.idea\.idea\workspace.xm
文件 284 2017-11-19 13:56 ChineseChuLi\.idea\ChineseChuLi.iml
文件 212 2017-11-19 13:56 ChineseChuLi\.idea\misc.xm
文件 276 2017-11-19 13:56 ChineseChuLi\.idea\modules.xm
文件 30869 2017-11-27 17:07 ChineseChuLi\.idea\workspace.xm
文件 464 2017-11-22 20:56 ChineseChuLi\ChineseFenCi.py
文件 483 2017-11-22 20:54 ChineseChuLi\DeleteChar.py
文件 696 2017-11-22 21:00 ChineseChuLi\DeleteStop.py
文件 756 2017-11-21 11:30 ChineseChuLi\GetData.py
文件 1646 2017-11-27 16:55 ChineseChuLi\getScreen.py
文件 754 2017-11-25 19:10 ChineseChuLi\kmen.py
文件 730 2017-11-25 19:08 ChineseChuLi\PCA.py
文件 763 2017-11-19 17:03 ChineseChuLi\Porter Stemming.py
文件 1776 2017-11-22 21:04 ChineseChuLi\Similiary.py
- 上一篇:电梯控制器VHDL程序与仿真
- 下一篇:Eclipse Theme
评论
共有 条评论