资源简介
python爬虫爬取微博热搜
代码片段和文件信息
#-*- coding = utf-8 -*-
#@Time : 2020/12/16 14:37
#@Author : wy
#@File : spider.py
#@Software : PyCharm
‘‘‘
实现思路
1.页面分析,找到页面的url,找到数据的位置
2.数据抓取,通过request库的get请求拿到html源码
3.数据解析,通过lxml库的xpath语法提取所需要的数据
4.数据存储,使用with open将数据进行写入
‘‘‘
#引入第三方库,需要安装
import requests #数据抓取库
from lxml import etree #数据解析库
import time #内置函数,时间库
#时间格式化
today = time.strftime(
‘%Y{y}%m{m}%d{d}‘time.localtime()).format(y=‘年‘m=‘月‘d=‘日‘)
print(today)
#数据抓取
url = “https://s.weibo.com/top/summary?cate=realtimehot“ #热搜地址
headers ={
“User-Agent“: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.60“
} #headers伪装头
response = requests.get(urlheaders=headers) #发送请求
#print(response.text) #获取html源码
#数据解析
html = etree.HTML(response.text) #类型转换
#先找到上一级标签,然后在下面进行多次提取,使用for循环
datas = html.xpath(‘//*[@id=“pl_top_realtimehot“]/table/tbody/tr‘) #由一定的路径
for data in datas: #循环多次提取
data_title = ‘‘.join(data.xpath(‘td[2]/a/text()‘)) #热搜标题
data_rank = ‘‘.join(data.xpath(‘td[1]/text()‘)) #热搜排名
data_num = ‘‘.join(data.xpath(‘td[2]/span/text()‘))
print(data_rankdata_titledata_num)
#数据存储,文件名是当天的日期
with open(“./20201228‘.txt‘“‘a‘encoding=‘utf-8‘)as f:
f.write(“%s\t%s%s\n“%(data_rankdata_titledata_num))
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 184 2020-12-16 14:39 weibo\.idea\.gitignore
文件 174 2020-12-16 14:39 weibo\.idea\inspectionProfiles\profiles_settings.xm
文件 410 2020-12-16 14:39 weibo\.idea\inspectionProfiles\Project_Default.xm
文件 302 2020-12-16 14:39 weibo\.idea\misc.xm
文件 269 2020-12-16 14:39 weibo\.idea\modules.xm
文件 361 2020-12-16 14:39 weibo\.idea\weibo.iml
文件 6060 2020-12-28 23:33 weibo\.idea\workspace.xm
文件 1870 2020-12-28 23:33 weibo\20201228‘.txt‘
文件 1819 2020-12-28 23:33 weibo\spider.py
文件 2176 2020-12-16 14:58 weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\AUTHORS
文件 1315 2020-12-16 14:58 weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\COPYING.txt
文件 4 2020-12-16 14:58 weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\INSTALLER
文件 1447 2020-12-16 14:58 weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\LICENSE
文件 4190 2020-12-16 14:58 weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\me
文件 3121 2020-12-16 14:58 weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\RECORD
文件 0 2020-12-16 14:58 weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\REQUESTED
文件 4 2020-12-16 14:58 weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\top_level.txt
文件 92 2020-12-16 14:58 weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\WHEEL
文件 18748 2020-12-16 14:58 weibo\venv\Lib\site-packages\bs4\builder\_html5lib.py
文件 18405 2020-12-16 14:58 weibo\venv\Lib\site-packages\bs4\builder\_htmlparser.py
文件 12234 2020-12-16 14:58 weibo\venv\Lib\site-packages\bs4\builder\_lxm
文件 19777 2020-12-16 14:58 weibo\venv\Lib\site-packages\bs4\builder\__init__.py
文件 12476 2020-12-16 14:58 weibo\venv\Lib\site-packages\bs4\builder\__pycache__\_html5lib.cpython-39.pyc
文件 12968 2020-12-16 14:58 weibo\venv\Lib\site-packages\bs4\builder\__pycache__\_htmlparser.cpython-39.pyc
文件 9418 2020-12-16 14:58 weibo\venv\Lib\site-packages\bs4\builder\__pycache__\_lxm
文件 15293 2020-12-16 14:58 weibo\venv\Lib\site-packages\bs4\builder\__pycache__\__init__.cpython-39.pyc
文件 34130 2020-12-16 14:58 weibo\venv\Lib\site-packages\bs4\dammit.py
文件 7755 2020-12-16 14:58 weibo\venv\Lib\site-packages\bs4\diagnose.py
文件 81650 2020-12-16 14:58 weibo\venv\Lib\site-packages\bs4\element.py
文件 5654 2020-12-16 14:58 weibo\venv\Lib\site-packages\bs4\formatter.py
............此处省略1722个文件信息
相关资源
- AWD靶机防御脚本(Linux_file_montor.py)
- 二维码识别+RGB识别+色环识别+通过串
- python爬虫爬取旅游信息(附源码,c
- python爬虫爬取豆瓣电影信息
- 爬取上百张妹子图源码可直接运行
- 视觉处理(test_shape.py)
- 网页视频并合并(2heiPage.py)
- 网页遥控小车 Python web (基于RPi.GPI
- 呼吸灯(IO.py)
- python 采集360的图片地址到文本文件
- Python简单小游戏 五子棋
- python基础题库(附答案).docx(共54页
- Python RC4算法
- 微信防撤回.py
- python实现的日历
- Python源代码:以web方式管理自己的常
- 电赛电磁炮.py
- 基于Python实现的简易画气球
- 画一朵可自定义的花.py
- python 井字棋 游戏源码
- xpath爬取豆瓣电影top250
- 《Python从小白到大牛》源代码
- 基于表面肌电的手势识别.py
- 查找两个路径中相同文件(get_same_f
- Python爬虫实战入门教程
- 70行代码实现贪吃蛇完整游戏功能
- 机器学习numpy和pandas基础
- Python 3 Web Development. Beginners Guide
- 贪吃蛇游戏.py
- 模拟自动滑块验证码.py(基于chromed
评论
共有 条评论