资源简介
数据集为依据与“新冠肺炎”相关的230个主题关键词进行随机数据采集的2020年1月1日—2020年2月20日期间共计100万条微博数据,公开数据集:
其中每列的含义:
- id: 微博序号,主键
- weibo_id: 微博id
- daytime: 微博发布时间, 从0000-2359
- name:发布人账号
- content:微博中文内容
- day:日期
- month:月份
- sentiments:使用snowNLP分析得出的情感数值,范围为-0.5 ~ 0.5,大于0为正面情感,小于0为负面情感;
- keyword0-4:使用jieba分词提取的主题关键词,取前四位;
使用该数据集进行的可视化分析实现:http://flask.yunwei123.tech/
github地址:https://github.com/yunwei37/COVID-19-NLP-vis
评论
共有 条评论