资源简介
给定微博id和爬取评论数量,爬取对应微博的评论,便于下一步的分词和词频统计
代码片段和文件信息
# 这里是完整代码!!!!!!
# 完整爬取微博评论程序,只需要修改微博id即可
import requests
import json
import re
#爬取微博评论写入weibo_comment.txt
def get_comment(weibo_id url headers number):
count = 0
fp = open(“weibo_comment_“+str(weibo_id)+“.txt“ “a“ encoding=“utf8“)
#判断爬取数目是否足够
while count #判断是否是第一组,第一组不加max_id
if count == 0:
print(‘是第一组‘)
try:
url = url + weibo_id + ‘&mid=‘ + weibo_id +‘&max_id_type=0‘
web_data = requests.get(url headers = headers)
js_con = web_data.json()
#获取连接下一页评论的max_id
max_id = js_con[‘data‘][‘max_id‘]
print(max_id)
comments_list = js_con[‘data‘][‘data‘]
for commment_item in comments_list:
comment = commment_item[“text“]
#删除表情符号
label_filter = re.compile(r‘?\w+[^>]*>‘ re.S)
comment = re.sub(label_filter ‘‘ comment)
fp.write(comment)
count += 1
print(“已获取“+str(count)+“条评论。“)
except Exception as e:
print(str(count) + “遇到异常“)
continue
相关资源
- 双边滤波器实验报告及代码python
- PYTHON3 经典50案例.pptx
- MNIST手写体数字训练/测试数据集(图
- 微博用户评论情感分析python代码数据
- 2019届华为软件精英挑战赛A*算法实现
- Python-京东抢购助手包含登录查询商品
- python分析国家统计局数据网站本情况
- python数据分析源代码Ivan Idris
- Python项目案例开发从入门到实战源代
- python火焰检测颜色模型代码
- python网络爬虫获取景点信息源码
- Python 数据挖掘入门与实践--代码与文
- Python3.x+PyQtChart实现数据可视化界面
- 《机器学习实战》源代码Python3
- SVD实现代码
- python爬取维基百科程序语言消息盒(
- python新浪微博爬虫
- 12306爬虫实现
- Kaggle房价预测代码195049
- 扑克小游戏python代码
- 《Python语言程序设计基础第二版PDF+课
- 中国裁判文书网爬虫
- python编程从入门到实践的案例和动手
- Python爬虫相关书籍.zip
- Mofan莫烦python全部教程代码
- 豆瓣电影排行爬虫
- Python语言程序设计基础 第二版 pdf书籍
- Python for data analysis(第二版中文版代
- 零基础python入门--课件&代码pyth
- Python数据挖掘入门与实践----Code完整代
评论
共有 条评论