python 微博爬虫（lxml）

大小: 7.81KB

文件类型: .py

金币: 1

下载: 0 次

发布日期: 2021-01-30
语言: Python
标签: 爬虫微博

高速下载

资源简介

需要创建 D:/weibo/weibo_crawl.txt 文件，然后运行该示例即可

资源截图

小图大图

代码片段和文件信息

# -*- coding:utf-8 -*-
‘‘‘
Created on 2018年3月9日

@author: ora_jason
‘‘‘
from lxml import html
import requests
import json
import re
import os
import time
import urllib.request


class CrawlWeibo:# 获取指定博主的所有微博cards的list
  def getCards（self id page）:  # id（字符串类型）：博主的用户id；page（整型）：微博翻页参数
   ii = 0
   list_cards = []
   while ii < page:
            ii = ii + 1
   print（‘正在爬取第%d页cards‘ % ii）
   url = ‘https://m.weibo.cn/api/container/getIndex?type=uid&value=‘ + id + ‘&containerid=107603‘ + id + ‘&page=‘ + str（ii）

   print（url）
   response = requests.get（url headers=headers）
   ob_json = json.loads（response.text）  # ob_json为dict类型

   list_cards.append（ob_json[‘data‘][‘cards‘]）  # ob_json[‘data‘][‘cards‘]为list类型
   time.sleep（2）
   print（‘暂停2秒‘）  # 爬完一页所有微博的card

上一篇：python 爬取QQ音乐并至本地
下一篇：Python3.x+ django2.x 在线教育系统源码

共有条评论

python 微博爬虫 （lxml）

资源简介

资源截图

代码片段和文件信息

评论

相关资源

python 微博爬虫（lxml）