资源简介
可以大批量爬取微博数据,用于进行数据分析
代码片段和文件信息
# -*- coding: utf-8 -*-
from scrapy import Item Field
class TweetsItem(Item):
“““ 微博信息 “““
_id = Field() # 微博id
weibo_url = Field() # 微博URL
created_at = Field() # 微博发表时间
like_num = Field() # 点赞数
repost_num = Field() # 转发数
comment_num = Field() # 评论数
content = Field() # 微博内容
user_id = Field() # 发表该微博用户的id
tool = Field() # 发布微博的工具
image_url = Field() # 图片
video_url = Field() # 视频
origin_weibo = Field() # 原始微博,只有转发的微博才有这个字段
location_map_info = Field() # 定位的经纬度信息
crawl_time = Field() # 抓取时间戳
class InformationItem(Item):
“““ 个人信息 “““
_id = Field() # 用户ID
nick_name = Field() # 昵称
gender = Field() # 性别
province = Field() # 所在省
city = Field() # 所在城市
brief_introduction = Field() # 简介
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 71 2019-09-05 19:47 requirements.txt
文件 252 2019-09-05 19:47 scrapy.cfg
文件 624666 2019-12-22 22:46 Sina.Tweets.csv
....... 83579 2019-09-05 19:47 images\account.png
....... 272798 2019-09-05 19:47 images\account_build_screenshot.png
文件 895424 2019-09-05 19:47 images\comment.png
文件 227144 2019-09-05 19:47 images\information.png
文件 253425 2019-09-05 19:47 images\relationship.png
文件 585571 2019-09-05 19:47 images\spider.png
文件 1046619 2019-09-05 19:47 images\tweet.png
....... 1095462 2019-09-05 19:47 images\xiaohao_shop.png
文件 114 2019-12-21 01:13 sina\account_build\account.txt
文件 114 2019-12-21 01:13 sina\account_build\account_sample.txt
文件 25 2019-12-21 13:31 sina\account_build\account_zlf.txt
文件 1331 2019-12-22 19:43 sina\account_build\ghostdriver.log
文件 3019 2019-12-22 19:45 sina\account_build\login.py
....... 161 2019-09-05 19:47 sina\account_build\__init__.py
....... 2011 2019-09-05 19:47 sina\items.py
文件 178 2019-12-23 17:55 sina\main.py
文件 2287 2019-12-22 23:53 sina\middlewares.py
....... 1324 2019-09-05 19:47 sina\pipelines.py
文件 2716 2019-12-24 23:24 sina\settings.py
....... 2251 2019-09-05 19:47 sina\spiders\utils.py
文件 19553 2019-12-24 23:25 sina\spiders\weibo_spider.py
....... 161 2019-09-05 19:47 sina\spiders\__init__.py
文件 1992 2019-12-22 16:46 sina\spiders\__pycache__\utils.cpython-37.pyc
文件 9601 2019-12-24 23:15 sina\spiders\__pycache__\weibo_spider.cpython-37.pyc
文件 134 2019-12-22 16:46 sina\spiders\__pycache__\__init__.cpython-37.pyc
....... 0 2019-09-05 19:47 sina\__init__.py
文件 1677 2019-12-22 16:46 sina\__pycache__\items.cpython-37.pyc
............此处省略16个文件信息
- 上一篇:python贪吃蛇代码
- 下一篇:python爬取百度贴吧图片(图片到本地文件夹)
相关资源
- 基于arcgis的python编程秘籍第二版数据
- Python:网络爬虫抓取豆瓣3万本书-详细
- PythonOCC应用
- [gui]Tkinter编程(python3.2)源码
- 在 VisualStudio 2017环境下使用Python之爬
- python新浪微博爬虫,爬取微博和用户
- 100个经典Python
- 新浪微博爬虫代码+结果
- py新浪微博爬虫通过修改最后的uid值即
- python随机森林实现代码和
- Tkinter
- python爬取亚马逊排名
- python socket编程服务端及客户端
- 使用Python制作控制visa程控电源
- python for给一列求偶数和奇数和统计个
- turtle库的简单(画五角星)
- 美图录爬虫(python源码)
- python课本源代码
- FastAPI入门级
- python除法.docx
- python聊天-服务端与客户端
- 网易云音乐爬虫(亲测通过)
- 读取json文件写入excel
- 几个基础的Python,学习专用
- python 爬虫(pyspider)
- python3爬虫采集淘宝商品数据
- python 采集指定网址的图片并保存到本
- Python贪吃蛇游戏
- python:12306实现购票
-
python 微博爬虫 (lxm
l)
评论
共有 条评论