python爬虫爬取微博热搜

大小: 8.73M

文件类型: .rar

金币: 1

下载: 0 次

发布日期: 2024-05-06
语言: Python
标签: python py 爬取爬虫微博

高速下载

资源简介

python爬虫爬取微博热搜

资源截图

小图大图

代码片段和文件信息

#-*- coding = utf-8 -*-
#@Time : 2020/12/16 14:37
#@Author : wy
#@File : spider.py
#@Software : PyCharm

‘‘‘
实现思路
1.页面分析，找到页面的url，找到数据的位置
2.数据抓取，通过request库的get请求拿到html源码
3.数据解析，通过lxml库的xpath语法提取所需要的数据
4.数据存储，使用with open将数据进行写入
‘‘‘

#引入第三方库，需要安装

import requests                #数据抓取库
from lxml import etree         #数据解析库
import time                    #内置函数，时间库

#时间格式化
today = time.strftime（
    ‘%Y{y}%m{m}%d{d}‘time.localtime（））.format（y=‘年‘m=‘月‘d=‘日‘）
print（today）

#数据抓取
url = “https://s.weibo.com/top/summary?cate=realtimehot“     #热搜地址
headers ={
“User-Agent“: “Mozilla/5.0 （Windows NT 10.0; Win64; x64） AppleWebKit/537.36 （KHTML like Gecko） Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.60“

}        #headers伪装头
response = requests.get（urlheaders=headers）        #发送请求
#print（response.text）    #获取html源码

#数据解析
html = etree.HTML（response.text）      #类型转换

#先找到上一级标签，然后在下面进行多次提取，使用for循环
datas = html.xpath（‘//*[@id=“pl_top_realtimehot“]/table/tbody/tr‘）       #由一定的路径
for data in datas:    #循环多次提取
    data_title = ‘‘.join（data.xpath（‘td[2]/a/text（）‘））     #热搜标题
    data_rank = ‘‘.join（data.xpath（‘td[1]/text（）‘））        #热搜排名
    data_num = ‘‘.join（data.xpath（‘td[2]/span/text（）‘））
    print（data_rankdata_titledata_num）

    #数据存储，文件名是当天的日期
    with open（“./20201228‘.txt‘“‘a‘encoding=‘utf-8‘）as f:
        f.write（“%s\t%s%s\n“%（data_rankdata_titledata_num））

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件        184  2020-12-16 14:39  weibo\.idea\.gitignore

     文件        174  2020-12-16 14:39  weibo\.idea\inspectionProfiles\profiles_settings.xml

     文件        410  2020-12-16 14:39  weibo\.idea\inspectionProfiles\Project_Default.xml

     文件        302  2020-12-16 14:39  weibo\.idea\misc.xml

     文件        269  2020-12-16 14:39  weibo\.idea\modules.xml

     文件        361  2020-12-16 14:39  weibo\.idea\weibo.iml

     文件       6060  2020-12-28 23:33  weibo\.idea\workspace.xml

     文件       1870  2020-12-28 23:33  weibo\20201228‘.txt‘

     文件       1819  2020-12-28 23:33  weibo\spider.py

     文件       2176  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\AUTHORS

     文件       1315  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\COPYING.txt

     文件          4  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\INSTALLER

     文件       1447  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\LICENSE

     文件       4190  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\metaDATA

     文件       3121  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\RECORD

     文件          0  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\REQUESTED

     文件          4  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\top_level.txt

     文件         92  2020-12-16 14:58  weibo\venv\Lib\site-packages\beautifulsoup4-4.9.3.dist-info\WHEEL

     文件      18748  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\_html5lib.py

     文件      18405  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\_htmlparser.py

     文件      12234  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\_lxml.py

     文件      19777  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\__init__.py

     文件      12476  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\__pycache__\_html5lib.cpython-39.pyc

     文件      12968  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\__pycache__\_htmlparser.cpython-39.pyc

     文件       9418  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\__pycache__\_lxml.cpython-39.pyc

     文件      15293  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\builder\__pycache__\__init__.cpython-39.pyc

     文件      34130  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\dammit.py

     文件       7755  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\diagnose.py

     文件      81650  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\element.py

     文件       5654  2020-12-16 14:58  weibo\venv\Lib\site-packages\bs4\formatter.py

............此处省略1722个文件信息

上一篇：二维码识别+RGB识别+色环识别+通过串口与pca9685舵机实现控制，并输出顺序.py
下一篇：AWD靶机防御脚本（Linux_file_montor.py）

共有条评论

python爬虫爬取微博热搜

资源简介

资源截图

代码片段和文件信息

评论

相关资源