资源简介
本资源为新浪微博爬虫,目前支持针对用户爬取、针对超话爬取、针对地点爬取三种模式。
爬取的信息有:rid、用户名称、微博等级、微博内容、微博转发量、微博评论量、微博点赞、发布时间 发布设备、话题名称、@用户、搜索地点以及用户发过的照片等;详情使用请看文档里的ReadME说明。
爬取的信息有:rid、用户名称、微博等级、微博内容、微博转发量、微博评论量、微博点赞、发布时间 发布设备、话题名称、@用户、搜索地点以及用户发过的照片等;详情使用请看文档里的ReadME说明。

代码片段和文件信息
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
“““
Created on Mon Apr 8 10:44:58 2019
@author: chenjianyao
“““
import xlrd
import xlwt
from xlutils.copy import copy
def write_excel_xls(path sheet_name value):
index = len(value) # 获取需要写入数据的行数
workbook = xlwt.Workbook() # 新建一个工作簿
sheet = workbook.add_sheet(sheet_name) # 在工作簿中新建一个表格
for i in range(0 index):
for j in range(0 len(value[i])):
sheet.write(i j value[i][j]) # 像表格中写入数据(对应的行和列)
workbook.save(path) # 保存工作簿
print(“xls格式表格写入数据成功!“)
def read_excel_xls(path):
data = []
workbook = xlrd.open_workbook(path) # 打开工作簿
sheets = workbook.sheet_names() # 获取工作簿中的所有表格
worksheet = workbook.sheet_by_name(sheets[0]) # 获取工作簿中所有表格中的的第一个表格
if worksheet.nrows == 1:
print(“目前是第一行“)
else:
for i in range(1 worksheet.nrows): #从第二行取值
dataTemp = []
for j in range(0 worksheet.ncols):
#print(worksheet.cell_value(i j) “\t“ end=““) # 逐行逐列读取数据
dataTemp.append(worksheet.cell_value(i j))
data.append(dataTemp)
return data
def write_excel_xls_append_norepeat(path value):
workbook = xlrd.open_workbook(path) # 打开工作簿
sheets = workbook.sheet_names() # 获取工作簿中的所有表格
worksheet = workbook.sheet_by_name(sheets[0]) # 获取工作簿中所有表格中的的第一个表格
rows_old = worksheet.nrows # 获取表格中已存在的数据的行数
new_workbook = copy(workbook) # 将xlrd对象拷贝转化为xlwt对象
new_worksheet = new_workbook.get_sheet(0) # 获取转化后工作簿中的第一个表格
rid = 0
for i in range(0 len(value)):
data = read_excel_xls(path)
data_temp = []
for m in range(0len(data)):
data_temp.append(data[m][1:len(data[m])])
value_temp = []
for m in range(0len(value)):
value_temp.append(value[m][1:len(value[m])])
if value_temp[i] not in data_temp:
for j in range(0 len(value[i])):
new_worksheet.write(rid+rows_old j value[i][j]) # 追加写入数据,注意是从i+rows_old行开始写入
rid = rid + 1
new_workbook.save(path) # 保存工作簿
print(“xls格式表格【追加】写入数据成功!“)
else:
print(“数据重复“)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2019-12-21 14:08 weiboSpider\
文件 14412 2019-07-01 18:43 weiboSpider\README.md
目录 0 2019-12-21 14:07 weiboSpider\driver\
文件 8393728 2019-07-12 09:30 weiboSpider\driver\chromedriver.exe
文件 2671 2019-07-23 17:19 weiboSpider\driver\excelSave.py
文件 10235 2019-07-23 17:19 weiboSpider\driver\weiboTest.py
文件 2671 2019-07-23 17:19 weiboSpider\excelSave.py
目录 0 2019-12-21 14:08 weiboSpider\locationPic\
文件 42 2019-07-01 18:43 weiboSpider\requirements.txt
文件 8012 2019-12-15 09:52 weiboSpider\searchKeyword.py
文件 724 2019-07-25 15:22 weiboSpider\test.py
文件 18446 2019-07-30 16:32 weiboSpider\updateWeiboUser.py
目录 0 2019-12-21 14:08 weiboSpider\weibo\
文件 12303 2019-12-15 09:54 weiboSpider\weiboLocation.py
文件 108544 2019-12-15 09:59 weiboSpider\weiboLocation.xls
文件 10184 2019-12-15 09:53 weiboSpider\weiboSuperWords.py
文件 19088 2019-10-04 19:12 weiboSpider\weiboUser.py
文件 27 2019-12-15 09:59 weiboSpider\weiboUsers.csv
- 上一篇:IEEE1588协议原文
- 下一篇:Axure快速原型设计PDF
相关资源
- 很好用的网站前端页面爬取工具
- 爬取豆瓣电影TOP250程序,包含非常详
- Web Scraper 爬虫 网页抓取 Chrome插件
- 新浪微博用户的实时影响力研究
- 爬取新浪微博上的妹纸照片的爬虫程
- 中国行政区划到村总.txt
- Lucene(搜索)Demo
- 机械主题爬虫的设计与实现
- .net4.0使用qq登录、新浪微博、网易微
- 模拟登录一些常见的网站
- NBA数据爬虫
- Chrome插件-XPath Helper 完成Bing每日壁纸
- 读秀包库全文器.zip
- 乐享新浪微博刷评论软件v1.25中文绿色
- 新浪微博,情感分析标记语料共12万条
- 微博图片爬虫exe
- 网络爬虫的设计与实现-毕业设计毕业
- 天气数据爬虫与可视化分析
- 新浪微博评论语料
- 百度图片搜索-爬虫批量高清大图
- 网络爬虫--用来提取网页内容和URL的程
- 基于.net开发的网络爬虫
- Jsoup网络爬虫
- TeleportUltra中文破解版
- 网页爬虫 非常实用工具
- 2018电影票房分析numpypandasmatplotlib
- 关于爬虫如何做js逆向的思路
- 分布式爬虫
- 自动爬取百度谷歌图片
- 基于社交网络的情绪化分析
评论
共有 条评论