新浪微博爬虫支持用户、超话、地点三种模式

大小: 4.31MB

文件类型: .zip

金币: 2

下载: 0 次

发布日期: 2023-08-10
语言: 其他
标签: 新浪微博 爬虫

高速下载

资源简介

本资源为新浪微博爬虫，目前支持针对用户爬取、针对超话爬取、针对地点爬取三种模式。
爬取的信息有：rid、用户名称、微博等级、微博内容、微博转发量、微博评论量、微博点赞、发布时间发布设备、话题名称、@用户、搜索地点以及用户发过的照片等；详情使用请看文档里的ReadME说明。

资源截图

小图大图

代码片段和文件信息

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
“““
Created on Mon Apr  8 10:44:58 2019

@author: chenjianyao
“““
import xlrd
import xlwt
from xlutils.copy import copy

def write_excel_xls（path sheet_name value）:
    index = len（value）  # 获取需要写入数据的行数
    workbook = xlwt.Workbook（）  # 新建一个工作簿
    sheet = workbook.add_sheet（sheet_name）  # 在工作簿中新建一个表格
    for i in range（0 index）:
        for j in range（0 len（value[i]））:
            sheet.write（i j value[i][j]）  # 像表格中写入数据（对应的行和列）
    workbook.save（path）  # 保存工作簿
    print（“xls格式表格写入数据成功！“）

def read_excel_xls（path）:
    data = []
    workbook = xlrd.open_workbook（path）  # 打开工作簿
    sheets = workbook.sheet_names（）  # 获取工作簿中的所有表格
    worksheet = workbook.sheet_by_name（sheets[0]）  # 获取工作簿中所有表格中的的第一个表格
    if worksheet.nrows == 1:
        print（“目前是第一行“）
    else:
        for i in range（1 worksheet.nrows）: #从第二行取值
            dataTemp = []
            for j in range（0 worksheet.ncols）:
                #print（worksheet.cell_value（i j） “\t“ end=““）  # 逐行逐列读取数据
                dataTemp.append（worksheet.cell_value（i j））
            data.append（dataTemp）
    return data
     
def write_excel_xls_append_norepeat（path value）:
    workbook = xlrd.open_workbook（path）  # 打开工作簿
    sheets = workbook.sheet_names（）  # 获取工作簿中的所有表格
    worksheet = workbook.sheet_by_name（sheets[0]）  # 获取工作簿中所有表格中的的第一个表格
    rows_old = worksheet.nrows  # 获取表格中已存在的数据的行数
    new_workbook = copy（workbook）  # 将xlrd对象拷贝转化为xlwt对象
    new_worksheet = new_workbook.get_sheet（0）  # 获取转化后工作簿中的第一个表格
    rid = 0
    for i in range（0 len（value））:
        data = read_excel_xls（path）
        data_temp = []
        for m in range（0len（data））:
            data_temp.append（data[m][1:len（data[m]）]）
        value_temp = []
        for m in range（0len（value））:
            value_temp.append（value[m][1:len（value[m]）]）
        
        if value_temp[i] not in data_temp:
            for j in range（0 len（value[i]））:
                new_worksheet.write（rid+rows_old j value[i][j]）  # 追加写入数据，注意是从i+rows_old行开始写入
            rid = rid + 1
            new_workbook.save（path）  # 保存工作簿
            print（“xls格式表格【追加】写入数据成功！“）
        else:
            print（“数据重复“）

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2019-12-21 14:08  weiboSpider\
     文件       14412  2019-07-01 18:43  weiboSpider\README.md
     目录           0  2019-12-21 14:07  weiboSpider\driver\
     文件     8393728  2019-07-12 09:30  weiboSpider\driver\chromedriver.exe
     文件        2671  2019-07-23 17:19  weiboSpider\driver\excelSave.py
     文件       10235  2019-07-23 17:19  weiboSpider\driver\weiboTest.py
     文件        2671  2019-07-23 17:19  weiboSpider\excelSave.py
     目录           0  2019-12-21 14:08  weiboSpider\locationPic\
     文件          42  2019-07-01 18:43  weiboSpider\requirements.txt
     文件        8012  2019-12-15 09:52  weiboSpider\searchKeyword.py
     文件         724  2019-07-25 15:22  weiboSpider\test.py
     文件       18446  2019-07-30 16:32  weiboSpider\updateWeiboUser.py
     目录           0  2019-12-21 14:08  weiboSpider\weibo\
     文件       12303  2019-12-15 09:54  weiboSpider\weiboLocation.py
     文件      108544  2019-12-15 09:59  weiboSpider\weiboLocation.xls
     文件       10184  2019-12-15 09:53  weiboSpider\weiboSuperWords.py
     文件       19088  2019-10-04 19:12  weiboSpider\weiboUser.py
     文件          27  2019-12-15 09:59  weiboSpider\weiboUsers.csv

共有条评论

新浪微博爬虫支持用户、超话、地点三种模式

资源简介

资源截图

代码片段和文件信息

评论

相关资源