资源简介
为了弥补国内在中文情感挖掘方面的语料的匮乏,谭松波收集整理了一个较大规模的酒店评论语料。语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。为了方便起见,语料被整理成4个子集: 1.ChnSentiCorp-Htl-ba-2000: 平衡语料,正负类各1000篇。 2.ChnSentiCorp-Htl-ba-4000: 平衡语料,正负类各2000篇。 3.ChnSentiCorp-Htl-ba-6000: 平衡语料,正负类各3000篇。 4.ChnSentiCorp-Htl-unba-10000: 非平衡语料,正类为7000篇。
代码片段和文件信息
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 132 2011-10-28 09:33 url.txt
文件 3995323 2011-10-28 09:21 中文情感挖掘酒店评论语料.rar
文件 531 2011-09-01 09:08 README-datatang.txt
----------- --------- ---------- ----- ----
3995986 3
----------- --------- ---------- ----- ----
文件 132 2011-10-28 09:33 url.txt
文件 3995323 2011-10-28 09:21 中文情感挖掘酒店评论语料.rar
文件 531 2011-09-01 09:08 README-datatang.txt
----------- --------- ---------- ----- ----
3995986 3
评论
共有 条评论