资源简介
包含20几个行业的文本语料,可用于文本分析,如文本相似度计算,文本挖掘,情感分析、关键词云图的构建等
代码片段和文件信息
# -*- coding: UTF-8 -*-
f = open(‘30wChinsesSeqDic.txt‘)
fout = open(‘30wdict.txt‘‘a‘)
count = 0
for line in f:
temp = line.strip()
temp_list = temp.split(‘ ‘)
temp_sublist = temp_list[1].split(‘\t‘)
if len(temp_sublist[1]) > 2:
count = count + 1
print temp_sublist[1]
fout.write(temp_sublist[1] + ‘\n‘)
f.close()
fout.close()
#print count
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2020-06-13 06:34 funNLP-master\
目录 0 2020-06-13 06:34 funNLP-master\.github\
文件 801 2020-06-13 06:34 funNLP-master\.github\FUNDING.yml
文件 81327 2020-06-13 06:34 funNLP-master\README.md
目录 0 2020-06-13 06:34 funNLP-master\data\
目录 0 2020-06-13 06:34 funNLP-master\data\.logo图片\
文件 52918 2020-06-13 06:34 funNLP-master\data\.logo图片\.img.jpg
目录 0 2020-06-13 06:34 funNLP-master\data\.logo图片\.捐赠图片\
文件 134177 2020-06-13 06:34 funNLP-master\data\.logo图片\.捐赠图片\.alipay.jpg
文件 103106 2020-06-13 06:34 funNLP-master\data\.logo图片\.捐赠图片\.wechat.jpg
文件 419 2020-06-13 06:34 funNLP-master\data\.logo图片\.捐赠图片\donation.md
目录 0 2020-06-13 06:34 funNLP-master\data\IT词库\
文件 308187 2020-06-13 06:34 funNLP-master\data\IT词库\THUOCL_it.txt
目录 0 2020-06-13 06:34 funNLP-master\data\NLP_BOOK\
文件 3359237 2020-06-13 06:34 funNLP-master\data\NLP_BOOK\eisenstein-nlp-notes.pdf
目录 0 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\
文件 6148 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\.DS_Store
文件 7527940 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\30wChinsesSeqDic.txt
文件 3989784 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\30wChinsesSeqDic_clean.txt
文件 3186208 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\30wdict.txt
文件 3186211 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\30wdict_utf8.txt
文件 848536 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\42537条伪原创词库.txt
目录 0 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\QQ拼音词库\
文件 7056 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\QQ拼音词库\QQpinyin.jpg
文件 178 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\QQ拼音词库\QQ拼音词库导出.txt
文件 2355763 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\dict.txt
文件 565268 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\fingerDic.txt
文件 2326382 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\httpcws_dict.txt
文件 1656360 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\out.txt
文件 365 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\thirtyw.py
文件 513 2020-06-13 06:34 funNLP-master\data\中文分词词库整理\thirtyw.pyc
............此处省略116个文件信息
- 上一篇:贝叶斯滤波与平滑
- 下一篇:PCL 1.8.0 源码
相关资源
- notepad++文本比较插件32位和64位
- LCSTS高质量中文短文本摘要数据集
- 易语言RAR外壳程序源码
- 易语言简单树型框分割文本源码
- 超大文本打开工具Large Text File Viewer
- Chrome插件-Markdown一键转换到富文本格
- 易语言GDI设置输出前景色源码
- 全情感词情感词典大全
- 台湾大学NTUSD,知网情感分析用词语集
- Word自动排版软件 v8.2.rar
- 手机号码归属地数据(txt文本)
- 字典文本资源
- 自然语言处理 中英文句法分析与依存
- 中文文本相似度匹配算法
- 1998年1月-6月人民日报语料库
- Oxford花卉数据加文本描述数据集
- AI Challenger 细粒度用户评论情感分析
- 自然语言处理、文本挖掘论文40篇 包
- 中文垃圾短信数据集NLP
- 大学生学习计划海报的文本挖掘考试
- 解析抓包软件中tcp包装的数据并转换
- 文本转语音工具
- 搜狗中文文本分析语料库
- gensim包的tfidf方法计算中文文本相似度
- eWebeditor 修正版 (解决在IE9-IE11 Chro
- NLPCC2014 微博情感分析样例数据
- ST-结构文本-PLC编程语言-教程
- 深思写锁586、582全国版更新2018.09.20含
- mac专用textwrangler文本编辑器
- 自动语音识别
评论
共有 条评论