-
大小: 39.78MB文件类型: .zip金币: 1下载: 0 次发布日期: 2023-07-24
- 语言: 其他
- 标签: 20newsgroup 文本挖掘 文本分类 数据集
资源简介
20newsgroup数据集是机器学习中的一个标准数据集。它包含18828个文档,来自于20个不同的新闻组。
该资源包含一个原信息文件和3个目录:test、train和raw。测试和训练目录将整个数据集切分为60%的训练和40%的测试文档。
代码片段和文件信息
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2012-07-04 20:12 379\
文件 164 2012-07-04 20:12 379\metadata
目录 0 2012-07-04 20:12 379\test\
目录 0 2012-07-04 20:12 379\test\misc.forsale\
文件 533 2012-07-04 20:12 379\test\misc.forsale\6491-76429
文件 735 2012-07-04 20:12 379\test\misc.forsale\5895-76680
文件 573 2012-07-04 20:12 379\test\misc.forsale\5960-75910
文件 423 2012-07-04 20:12 379\test\misc.forsale\5731-76484
文件 1642 2012-07-04 20:12 379\test\misc.forsale\6419-76590
文件 848 2012-07-04 20:12 379\test\misc.forsale\6572-76439
文件 565 2012-07-04 20:12 379\test\misc.forsale\6301-76686
文件 2557 2012-07-04 20:12 379\test\misc.forsale\6109-76259
文件 711 2012-07-04 20:12 379\test\misc.forsale\6157-74743
文件 629 2012-07-04 20:12 379\test\misc.forsale\6100-76238
文件 1294 2012-07-04 20:12 379\test\misc.forsale\6132-76869
文件 340 2012-07-04 20:12 379\test\misc.forsale\6481-75857
文件 360 2012-07-04 20:12 379\test\misc.forsale\5911-76008
文件 687 2012-07-04 20:12 379\test\misc.forsale\6422-75875
文件 1045 2012-07-04 20:12 379\test\misc.forsale\5984-74776
文件 542 2012-07-04 20:12 379\test\misc.forsale\6093-76442
文件 418 2012-07-04 20:12 379\test\misc.forsale\6089-76154
文件 1642 2012-07-04 20:12 379\test\misc.forsale\6035-76685
文件 981 2012-07-04 20:12 379\test\misc.forsale\6031-74831
文件 584 2012-07-04 20:12 379\test\misc.forsale\6114-76054
文件 1146 2012-07-04 20:12 379\test\misc.forsale\6267-76927
文件 1221 2012-07-04 20:12 379\test\misc.forsale\5891-75952
文件 455 2012-07-04 20:12 379\test\misc.forsale\6364-76430
文件 713 2012-07-04 20:12 379\test\misc.forsale\5815-76312
文件 660 2012-07-04 20:12 379\test\misc.forsale\6189-76803
文件 935 2012-07-04 20:12 379\test\misc.forsale\6469-76036
文件 597 2012-07-04 20:12 379\test\misc.forsale\6540-75948
............此处省略37690个文件信息
----------- --------- ---------- ----- ----
目录 0 2012-07-04 20:12 379\
文件 164 2012-07-04 20:12 379\me
目录 0 2012-07-04 20:12 379\test\
目录 0 2012-07-04 20:12 379\test\misc.forsale\
文件 533 2012-07-04 20:12 379\test\misc.forsale\6491-76429
文件 735 2012-07-04 20:12 379\test\misc.forsale\5895-76680
文件 573 2012-07-04 20:12 379\test\misc.forsale\5960-75910
文件 423 2012-07-04 20:12 379\test\misc.forsale\5731-76484
文件 1642 2012-07-04 20:12 379\test\misc.forsale\6419-76590
文件 848 2012-07-04 20:12 379\test\misc.forsale\6572-76439
文件 565 2012-07-04 20:12 379\test\misc.forsale\6301-76686
文件 2557 2012-07-04 20:12 379\test\misc.forsale\6109-76259
文件 711 2012-07-04 20:12 379\test\misc.forsale\6157-74743
文件 629 2012-07-04 20:12 379\test\misc.forsale\6100-76238
文件 1294 2012-07-04 20:12 379\test\misc.forsale\6132-76869
文件 340 2012-07-04 20:12 379\test\misc.forsale\6481-75857
文件 360 2012-07-04 20:12 379\test\misc.forsale\5911-76008
文件 687 2012-07-04 20:12 379\test\misc.forsale\6422-75875
文件 1045 2012-07-04 20:12 379\test\misc.forsale\5984-74776
文件 542 2012-07-04 20:12 379\test\misc.forsale\6093-76442
文件 418 2012-07-04 20:12 379\test\misc.forsale\6089-76154
文件 1642 2012-07-04 20:12 379\test\misc.forsale\6035-76685
文件 981 2012-07-04 20:12 379\test\misc.forsale\6031-74831
文件 584 2012-07-04 20:12 379\test\misc.forsale\6114-76054
文件 1146 2012-07-04 20:12 379\test\misc.forsale\6267-76927
文件 1221 2012-07-04 20:12 379\test\misc.forsale\5891-75952
文件 455 2012-07-04 20:12 379\test\misc.forsale\6364-76430
文件 713 2012-07-04 20:12 379\test\misc.forsale\5815-76312
文件 660 2012-07-04 20:12 379\test\misc.forsale\6189-76803
文件 935 2012-07-04 20:12 379\test\misc.forsale\6469-76036
文件 597 2012-07-04 20:12 379\test\misc.forsale\6540-75948
............此处省略37690个文件信息
- 上一篇:IE6 绿色 兼容win764位
- 下一篇:显著性检测数据集PASCAL-S
相关资源
- NLP小白入门——超全中文文本分类系
- 基于weka的文本分类器
- 中文文本分类语料由复旦大学李荣陆
- 中文文本分类语料-测试集
- 北京大学计算语言所-杨建武老师-文本
- Predictive Modeling with SAS Enterprise Miner
- 基于RNN的Tensorflow实现文本分类任务的
- 20NEWSGROUP
- 20newsgroup-18828.tar.gz
- 搜狗文本分类语料库-中文文本分类
- 复旦中文文本分类-训练集
- 搜狗最新文本分类语料库
- imdb电影情感分类数据集
- 文本挖掘技术
- 北大文本挖掘技术课件
- 复旦新闻语料库测试集
- 中文文本分类语料复旦完整版
- 复旦大学中文文本分类数据集
- ICTCLAS2016分词系统2016
- 新闻文本分类数据集50000条
- 中文文本分类语料库复旦大学训练与
- 新闻分类文本分类
- 复旦大学中文文本分类数据集-训练
- 中文文本分类语料复旦-训练集
- 《基于R语言的自动数据收集:网络抓
- 喜悦、愤怒、厌恶、低落微博带标注
- BIbexcel分析软件
- 复旦文本分类语料数据集 包含训练集
- 中文文本分类语料复旦-测试集
- 复旦大学文本分类新闻语料测试集+训
评论
共有 条评论