资源简介
1、资源中有语料,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
2、资源中还附有一份停用词。
2、资源中还附有一份停用词。
代码片段和文件信息
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 106752845 2019-11-29 20:44 语料(附停用词)\data.rar
文件 21539 2019-11-29 16:02 语料(附停用词)\stopword.txt
目录 0 2019-12-01 21:36 语料(附停用词)
----------- --------- ---------- ----- ----
106774384 3
----------- --------- ---------- ----- ----
文件 106752845 2019-11-29 20:44 语料(附停用词)\data.rar
文件 21539 2019-11-29 16:02 语料(附停用词)\stopword.txt
目录 0 2019-12-01 21:36 语料(附停用词)
----------- --------- ---------- ----- ----
106774384 3
相关资源
- 中文文本分类语料-测试集
- 基于RNN的Tensorflow实现文本分类任务的
- 20NEWSGROUP
- 搜狗文本分类语料库-中文文本分类
- 复旦中文文本分类-训练集
- 搜狗最新文本分类语料库
- imdb电影情感分类数据集
- 复旦新闻语料库测试集
- 中文文本分类语料复旦完整版
- 复旦大学中文文本分类数据集
- 新闻文本分类数据集50000条
- 中文文本分类语料库复旦大学训练与
- 新闻分类文本分类
- 复旦大学中文文本分类数据集-训练
- 中文文本分类语料复旦-训练集
- 喜悦、愤怒、厌恶、低落微博带标注
- 复旦文本分类语料数据集 包含训练集
- 中文文本分类语料复旦-测试集
- 复旦大学文本分类新闻语料测试集+训
- 搜狐2012新闻语料已分类,utf8格式
- 新闻类中文文本分类数据集
- 中文文本分类语料复旦训练集+测试集
- 面向大数据的高效能垃圾文本分类
- 基于LDA主题模型的短文本分类方法_张
- 基于LDA高频词扩展的中文短文本分类
- 基于LDA 主题模型的短文本分类方法
- 完整用CNN(Tensorflow)完成文本分类的
- 文本分类时所用的中英文停用词表
- 北邮计算机研一《数据挖掘》文本分
- sogou中文语料库
评论
共有 条评论