• 大小: 7.81KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-01-30
  • 语言: Python
  • 标签: 爬虫  微博  

资源简介

需要创建 D:/weibo/weibo_crawl.txt 文件,然后运行该示例即可

资源截图

代码片段和文件信息

# -*- coding:utf-8 -*-
‘‘‘
Created on 2018年3月9日

@author: ora_jason
‘‘‘
from lxml import html
import requests
import json
import re
import os
import time
import urllib.request


class CrawlWeibo:# 获取指定博主的所有微博cards的list
  def getCards(self id page):  # id(字符串类型):博主的用户id;page(整型):微博翻页参数
   ii = 0
   list_cards = []
   while ii < page:
            ii = ii + 1
   print(‘正在爬取第%d页cards‘ % ii)
   url = ‘https://m.weibo.cn/api/container/getIndex?type=uid&value=‘ + id + ‘&containerid=107603‘ + id + ‘&page=‘ + str(ii)

   print(url)
   response = requests.get(url headers=headers)
   ob_json = json.loads(response.text)  # ob_json为dict类型

   list_cards.append(ob_json[‘data‘][‘cards‘])  # ob_json[‘data‘][‘cards‘]为list类型
   time.sleep(2)
   print(‘暂停2秒‘)  # 爬完一页所有微博的card

评论

共有 条评论