资源简介
此资料是用来爬取新浪微博评论的,修改最后的uid值即可
代码片段和文件信息
# -*- coding: utf-8 -*-
“““
Created on Wed Apr 18 13:11:58 2018
@author: qizhiliu
“““
import time
import jieba
f=open(r‘D:\test\test7.txt‘‘a+‘encoding=‘utf-8‘)
import requests#requests是一个兼容的库
import json
#from lastLine import get_last_line
#import os
import re #解析不规则文本
from lxml import html
import math
#uid=2803301701
start=time.clock()
class weibo(object):
def get_weibo(selfidpage_idpage):
url=‘https://m.weibo.cn/api/container/getIndex?uid={}&type=uid&value={}&containerid={}&page={}‘.format(ididpage_idpage)
response=requests.get(url)
ob_json =json.loads(response.text)
#print (response.text)
#print (ob_json)
list_cards=ob_json.get(‘data‘).get(‘cards‘)
#list_text=ob_json.get(‘text‘)
#print (list_text)
#print(list_cards)
return list_cards
def get_comments(selfidpage):
url=‘https://m.weibo.cn/api/comments/show?id={}&page={}‘.format(idpage)
response=requests.get(url)
ob_json =json.loads(response.text)
if len(ob_json)<3:
list_comments=‘‘
else:
list_comments=ob_json.get(‘data‘).get(‘data‘)
# print (list_comments)
return list_comments
def main(selfidpagepage_id):
list_cards = self.get_weibo(idpage_idpage)
#print (list_cards)
for card in list_cards:
if card.get(‘card_type‘)==9: #等于9的微博才不是广告
id = card.get(‘mblog‘).get(‘id‘)
text= card.get(‘mblog‘).get(‘text‘)
if text!=‘‘:
tree=html.fromstring(text)
text=tree.xpath(‘string(.)‘)
text=re.sub(r‘回复.*?:‘‘‘text)
text=re.sub(r‘ ‘‘ ‘text)
text=re.sub(r“@.* “‘‘text)
text = jieba.cut(text)
text=“ “.join(text)
#f.write(“***“)
#f.write(‘@@@微博‘)
f.write(text)
f.write(‘\n‘)
else:
pass
b=1
#tree=html.fromstring(text)
#text=tree.xpath(‘string(.)‘)
while True:
list_comments=weibo.get_comments(idb)#获取博文对应的评论界面
b+=1
if b+1%10==0:
print(‘成功爬取100页评论‘)
if len(list_comments)<1:
break
else:
count_hotcomments = 1
for comment in list_comments:
# user_id = comment.get(‘user_id‘)
# created_at = comment.get(‘created_at‘)
#link_counts = comment.get(‘like_counts‘)
text = comment.get(‘text‘)
- 上一篇:shuake.py
- 下一篇:Python淘宝评论爬取
相关资源
- Python淘宝评论爬取
- python基础教程第三版源代码
- PCV---python工具包.zip
- 去停用词、测试数据
- 高效爬取微博数据python3实现
- 基于vggnet卷积神经网络的图像风格迁
- pyton 实现学生信息管理系统
- 数字图像处理Python制作简易软件系统
- Python爬取b站视频弹幕并可视化案例
- python实现类似于QQ或MSN的聊天系统
- sm4国密算法python实现
- python面试题100道
- python_docx-0.8.10-py2.py3-none-any.whl
- python3.4中文学习手册chm
- python 2.7中文手册chm版
- 产生式系统包含动物识别规则库,手
- 数据挖掘教学视频实战超详细加pyth
- python实现KNN手写字体识别Demo
- python q-learning
- python3网络爬虫与开发实战崔庆才PDF百
- python语言实现通过树莓派Pi camera的图
- 扫雷 python
- python习题
- ngramScore适应度计算文件(包含引入的
- 爱鲜蜂项目源码
- python300G视频书籍教程.zip
- Python点餐案例
- apriori python 3
- Python-Django搭建简单网站源码
- PSO优化的BP神经网络——python实现
评论
共有 条评论