资源简介
对搜狗实验室的2012搜狐新闻语料进行切分、格式转换(已转为UTF8),从中抽取了11个新闻类别并分文件夹存储,每个txt文件包含600篇新闻。数据大概共54M,可以用于中文分类。
代码片段和文件信息
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 2259196 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\0.txt
文件 2249561 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\1.txt
文件 2248622 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\10.txt
文件 1184161 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\11.txt
文件 2290923 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\2.txt
文件 2259271 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\3.txt
文件 2259546 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\4.txt
文件 2233001 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\5.txt
文件 2261142 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\6.txt
文件 2274512 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\7.txt
文件 2226670 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\8.txt
文件 2294141 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\9.txt
文件 1518927 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\0.txt
文件 1533872 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\1.txt
文件 1479302 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\2.txt
文件 1468445 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\3.txt
文件 1546826 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\4.txt
文件 1645931 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\5.txt
文件 90106 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\6.txt
文件 1624504 2018-01-30 15:25 搜狐2012新闻语料切分(utf8)\语料初步筛选\军事\0.txt
文件 1502492 2018-01-30 15:24 搜狐2012新闻语料切分(utf8)\语料初步筛选\军事\1.txt
文件 1301321 2018-01-30 15:24 搜狐2012新闻语料切分(utf8)\语料初步筛选\军事\2.txt
文件 955472 2018-01-30 15:25 搜狐2012新闻语料切分(utf8)\语料初步筛选\军事\3.txt
文件 50344 2018-01-30 15:25 搜狐2012新闻语料切分(utf8)\语料初步筛选\军事\4.txt
文件 2131445 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\0.txt
文件 2136869 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\1.txt
文件 2074956 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\2.txt
文件 2288014 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\3.txt
文件 2298830 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\4.txt
文件 2275578 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\5.txt
............此处省略130个文件信息
----------- --------- ---------- ----- ----
文件 2259196 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\0.txt
文件 2249561 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\1.txt
文件 2248622 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\10.txt
文件 1184161 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\11.txt
文件 2290923 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\2.txt
文件 2259271 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\3.txt
文件 2259546 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\4.txt
文件 2233001 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\5.txt
文件 2261142 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\6.txt
文件 2274512 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\7.txt
文件 2226670 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\8.txt
文件 2294141 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\体育\9.txt
文件 1518927 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\0.txt
文件 1533872 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\1.txt
文件 1479302 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\2.txt
文件 1468445 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\3.txt
文件 1546826 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\4.txt
文件 1645931 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\5.txt
文件 90106 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)\语料初步筛选\健康\6.txt
文件 1624504 2018-01-30 15:25 搜狐2012新闻语料切分(utf8)\语料初步筛选\军事\0.txt
文件 1502492 2018-01-30 15:24 搜狐2012新闻语料切分(utf8)\语料初步筛选\军事\1.txt
文件 1301321 2018-01-30 15:24 搜狐2012新闻语料切分(utf8)\语料初步筛选\军事\2.txt
文件 955472 2018-01-30 15:25 搜狐2012新闻语料切分(utf8)\语料初步筛选\军事\3.txt
文件 50344 2018-01-30 15:25 搜狐2012新闻语料切分(utf8)\语料初步筛选\军事\4.txt
文件 2131445 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\0.txt
文件 2136869 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\1.txt
文件 2074956 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\2.txt
文件 2288014 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\3.txt
文件 2298830 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\4.txt
文件 2275578 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)\语料初步筛选\娱乐\5.txt
............此处省略130个文件信息
- 上一篇:dev-cpp5.4.0
- 下一篇:数值分析答案
相关资源
- 人民网,中新网新闻语料库,几百条
- 新闻语料库
- 1998年1月-6月人民日报语料库
- NLPCC2014 微博情感分析样例数据
- 自然语言处理之文本主题判别
- 基于LDA特征扩展的短文本分类_吕超镇
- 中文文本分类项目数据集.rar
- 文本分类系统
- 文本分类竞赛调优分享.pdf
- 基于Hadoop架构的文本分类算法
- 数据挖掘文本分类语料库中文-李荣陆
- SVMCLS 文本自动分类器可编译Release完整
- 文本分类器,KNNSVM贝叶斯等都有
- 微博情感分析,文本分类,毕业设计
- 斯坦福大学文本分类课件PPT
- ChnSentiCorp_htl_ba_4K.zip
- svm算法文本特征提取形成特征向量
- 文本分类实验报告(详尽版本)
- 文本分类所需停用词表
- 基于svm的中文文本分类系统
- 网易文本分类数据 - 好东西
- 卡方特征词选择法选取1000个特征词
- RNN 文本分类
- 腾讯新闻语料库
- NLP小白入门——超全中文文本分类系
- 基于weka的文本分类器
- 中文文本分类语料由复旦大学李荣陆
- 中文文本分类语料-测试集
- 基于RNN的Tensorflow实现文本分类任务的
- 20NEWSGROUP
评论
共有 条评论