资源简介
本资源为新浪微博爬虫,目前支持针对用户爬取、针对超话爬取、针对地点爬取三种模式。
爬取的信息有:rid、用户名称、微博等级、微博内容、微博转发量、微博评论量、微博点赞、发布时间 发布设备、话题名称、@用户、搜索地点以及用户发过的照片等;详情使用请看文档里的ReadME说明。
爬取的信息有:rid、用户名称、微博等级、微博内容、微博转发量、微博评论量、微博点赞、发布时间 发布设备、话题名称、@用户、搜索地点以及用户发过的照片等;详情使用请看文档里的ReadME说明。
代码片段和文件信息
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
“““
Created on Mon Apr 8 10:44:58 2019
@author: chenjianyao
“““
import xlrd
import xlwt
from xlutils.copy import copy
def write_excel_xls(path sheet_name value):
index = len(value) # 获取需要写入数据的行数
workbook = xlwt.Workbook() # 新建一个工作簿
sheet = workbook.add_sheet(sheet_name) # 在工作簿中新建一个表格
for i in range(0 index):
for j in range(0 len(value[i])):
sheet.write(i j value[i][j]) # 像表格中写入数据(对应的行和列)
workbook.save(path) # 保存工作簿
print(“xls格式表格写入数据成功!“)
def read_excel_xls(path):
data = []
workbook = xlrd.open_workbook(path) # 打开工作簿
sheets = workbook.sheet_names() # 获取工作簿中的所有表格
worksheet = workbook.sheet_by_name(sheets[0]) # 获取工作簿中所有表格中的的第一个表格
if worksheet.nrows == 1:
print(“目前是第一行“)
else:
for i in range(1 worksheet.nrows): #从第二行取值
dataTemp = []
for j in range(0 worksheet.ncols):
#print(worksheet.cell_value(i j) “\t“ end=““) # 逐行逐列读取数据
dataTemp.append(worksheet.cell_value(i j))
data.append(dataTemp)
return data
def write_excel_xls_append_norepeat(path value):
workbook = xlrd.open_workbook(path) # 打开工作簿
sheets = workbook.sheet_names() # 获取工作簿中的所有表格
worksheet = workbook.sheet_by_name(sheets[0]) # 获取工作簿中所有表格中的的第一个表格
rows_old = worksheet.nrows # 获取表格中已存在的数据的行数
new_workbook = copy(workbook) # 将xlrd对象拷贝转化为xlwt对象
new_worksheet = new_workbook.get_sheet(0) # 获取转化后工作簿中的第一个表格
rid = 0
for i in range(0 len(value)):
data = read_excel_xls(path)
data_temp = []
for m in range(0len(data)):
data_temp.append(data[m][1:len(data[m])])
value_temp = []
for m in range(0len(value)):
value_temp.append(value[m][1:len(value[m])])
if value_temp[i] not in data_temp:
for j in range(0 len(value[i])):
new_worksheet.write(rid+rows_old j value[i][j]) # 追加写入数据,注意是从i+rows_old行开始写入
rid = rid + 1
new_workbook.save(path) # 保存工作簿
print(“xls格式表格【追加】写入数据成功!“)
else:
print(“数据重复“)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2019-12-21 14:08 weiboSpider\
文件 14412 2019-07-01 18:43 weiboSpider\README.md
目录 0 2019-12-21 14:07 weiboSpider\driver\
文件 8393728 2019-07-12 09:30 weiboSpider\driver\chromedriver.exe
文件 2671 2019-07-23 17:19 weiboSpider\driver\excelSave.py
文件 10235 2019-07-23 17:19 weiboSpider\driver\weiboTest.py
文件 2671 2019-07-23 17:19 weiboSpider\excelSave.py
目录 0 2019-12-21 14:08 weiboSpider\locationPic\
文件 42 2019-07-01 18:43 weiboSpider\requirements.txt
文件 8012 2019-12-15 09:52 weiboSpider\searchKeyword.py
文件 724 2019-07-25 15:22 weiboSpider\test.py
文件 18446 2019-07-30 16:32 weiboSpider\updateWeiboUser.py
目录 0 2019-12-21 14:08 weiboSpider\weibo\
文件 12303 2019-12-15 09:54 weiboSpider\weiboLocation.py
文件 108544 2019-12-15 09:59 weiboSpider\weiboLocation.xls
文件 10184 2019-12-15 09:53 weiboSpider\weiboSuperWords.py
文件 19088 2019-10-04 19:12 weiboSpider\weiboUser.py
文件 27 2019-12-15 09:59 weiboSpider\weiboUsers.csv
- 上一篇:IEEE1588协议原文
- 下一篇:Axure快速原型设计PDF
相关资源
- 极验陈博-智能反爬虫试炼之路.pdf
- scrapy官方手册中文 高清完整.pdf版
- 网络爬虫从入门到精通嗷嗷
- 精通Scrapy网络爬虫(完整版)274198
- 新华书店图书数据
- .Net网络爬虫
- 自己动手写网络爬虫完整版 源码
- 豆瓣电影数据集12万+用户影评40万+爬
- GatherPlatform数据抓取平台
- 新浪微博自动推广专家_v2.18.zip
- 《精通Scrapy网络爬虫》刘硕 pdf
- tp5 利用QueryList + PhantomJS实现抓取淘宝
- TkComic_tencent_Demo.rar
- 火车头采集器破解版
- 精通Scrapy网络爬虫完整版
- 主题爬虫论文包
- 自己动手写网络爬虫PDF+源码.zip
- django完整学习项目,包含集成scrapy爬
- 2020二手车交易数据15万行.xlsx
- 仿新浪微博.rar
- 网络爬虫入门到精通PDF
- 自己动手写网络爬虫pdf+源代码
- Go-手机淘宝App闲鱼App相关爬虫
- phantomjs-2.1.1-windows
- 22个爬虫项目源码 绝对实用
- 新浪微博晒号软件(桌面提取器5.0)
- 大四生产实习报告
- 爬虫基于Springboot+WebMagic+Mybatis+多数据
- 后羿爬虫软件
- 基于jsoup的SpringBoot爬虫demo
评论
共有 条评论