• 大小: 4.31MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-08-10
  • 语言: 其他
  • 标签: 新浪微博  爬虫  

资源简介

本资源为新浪微博爬虫,目前支持针对用户爬取、针对超话爬取、针对地点爬取三种模式。
爬取的信息有:rid、用户名称、微博等级、微博内容、微博转发量、微博评论量、微博点赞、发布时间 发布设备、话题名称、@用户、搜索地点以及用户发过的照片等;详情使用请看文档里的ReadME说明。

代码片段和文件信息

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
“““
Created on Mon Apr  8 10:44:58 2019

@author: chenjianyao
“““
import xlrd
import xlwt
from xlutils.copy import copy

def write_excel_xls(path sheet_name value):
    index = len(value)  # 获取需要写入数据的行数
    workbook = xlwt.Workbook()  # 新建一个工作簿
    sheet = workbook.add_sheet(sheet_name)  # 在工作簿中新建一个表格
    for i in range0 index):
        for j in range0 len(value[i])):
            sheet.write(i j value[i][j])  # 像表格中写入数据(对应的行和列)
    workbook.save(path)  # 保存工作簿
    print(“xls格式表格写入数据成功!“)

def read_excel_xls(path):
    data = []
    workbook = xlrd.open_workbook(path)  # 打开工作簿
    sheets = workbook.sheet_names()  # 获取工作簿中的所有表格
    worksheet = workbook.sheet_by_name(sheets[0])  # 获取工作簿中所有表格中的的第一个表格
    if worksheet.nrows == 1:
        print(“目前是第一行“)
    else:
        for i in range1 worksheet.nrows): #从第二行取值
            dataTemp = []
            for j in range0 worksheet.ncols):
                #print(worksheet.cell_value(i j) “\t“ end=““)  # 逐行逐列读取数据
                dataTemp.append(worksheet.cell_value(i j))
            data.append(dataTemp)
    return data
     
def write_excel_xls_append_norepeat(path value):
    workbook = xlrd.open_workbook(path)  # 打开工作簿
    sheets = workbook.sheet_names()  # 获取工作簿中的所有表格
    worksheet = workbook.sheet_by_name(sheets[0])  # 获取工作簿中所有表格中的的第一个表格
    rows_old = worksheet.nrows  # 获取表格中已存在的数据的行数
    new_workbook = copy(workbook)  # 将xlrd对象拷贝转化为xlwt对象
    new_worksheet = new_workbook.get_sheet(0)  # 获取转化后工作簿中的第一个表格
    rid = 0
    for i in range0 len(value)):
        data = read_excel_xls(path)
        data_temp = []
        for m in range0len(data)):
            data_temp.append(data[m][1:len(data[m])])
        value_temp = []
        for m in range0len(value)):
            value_temp.append(value[m][1:len(value[m])])
        
        if value_temp[i] not in data_temp:
            for j in range0 len(value[i])):
                new_worksheet.write(rid+rows_old j value[i][j])  # 追加写入数据,注意是从i+rows_old行开始写入
            rid = rid + 1
            new_workbook.save(path)  # 保存工作簿
            print(“xls格式表格【追加】写入数据成功!“)
        else:
            print(“数据重复“)
    
     
    
   

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2019-12-21 14:08  weiboSpider\
     文件       14412  2019-07-01 18:43  weiboSpider\README.md
     目录           0  2019-12-21 14:07  weiboSpider\driver\
     文件     8393728  2019-07-12 09:30  weiboSpider\driver\chromedriver.exe
     文件        2671  2019-07-23 17:19  weiboSpider\driver\excelSave.py
     文件       10235  2019-07-23 17:19  weiboSpider\driver\weiboTest.py
     文件        2671  2019-07-23 17:19  weiboSpider\excelSave.py
     目录           0  2019-12-21 14:08  weiboSpider\locationPic\
     文件          42  2019-07-01 18:43  weiboSpider\requirements.txt
     文件        8012  2019-12-15 09:52  weiboSpider\searchKeyword.py
     文件         724  2019-07-25 15:22  weiboSpider\test.py
     文件       18446  2019-07-30 16:32  weiboSpider\updateWeiboUser.py
     目录           0  2019-12-21 14:08  weiboSpider\weibo\
     文件       12303  2019-12-15 09:54  weiboSpider\weiboLocation.py
     文件      108544  2019-12-15 09:59  weiboSpider\weiboLocation.xls
     文件       10184  2019-12-15 09:53  weiboSpider\weiboSuperWords.py
     文件       19088  2019-10-04 19:12  weiboSpider\weiboUser.py
     文件          27  2019-12-15 09:59  weiboSpider\weiboUsers.csv

评论

共有 条评论