全网最全、人工补充的空气质量历史数据，爬虫代码在压缩包里.zip

大小: 636KB

文件类型: .zip

金币: 2

下载: 0 次

发布日期: 2021-06-14
语言: 其他
标签: 爬虫

高速下载

资源简介

根据空气质量历史数据查询官网： https://www.aqistudy.cn/historydata/，通过爬虫+人工手动修改得到的最全面的、最新的空气质量历史数据

资源截图

小图大图

代码片段和文件信息

import requests
from lxml import etree
import urllib.parse
headers = {
    ‘User-Agent‘:‘Mozilla/5.0 （Windows NT 10.0; WOW64） AppleWebKit/537.36 （KHTML like Gecko） Chrome/64.0.3282.204 Safari/537.36‘
}
url = “https://www.aqistudy.cn/historydata/“
response = requests.get（url headers=headers）
text = response.content.decode（‘utf-8‘）
html = etree.HTML（text）
city_set = list（）
citys = html.xpath（“//div[@class=‘all‘]/div/ul“）
for city in citys:
    messages = city.xpath（“.//li“）
    for message in messages:
        city_name = message.xpath（“.//a/text（）“）
        city_name = ““.join（city_name）
        city_set.append（city_name）
print（city_set）

import time
from urllib import parse
import pandas as pd
from selenium import webdriver
driver = webdriver.PhantomJS（r‘E:\\Tools\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe‘）
base_url = ‘https://www.aqistudy.cn/historydata/monthdata.php?city=‘
for k in range（0len（city_set））:
    city = city_set[k]
    print（city）
    weburl = （‘%s%s‘ % （base_url parse.quote（city）））
    print（weburl）
    driver.get（weburl）
    time.sleep（1）
    dfs = pd.read_html（driver.page_sourceheader=0）[0]
    time.sleep（0.5）
    dfs.to_csv（r‘E:\\Data\\%s.csv‘% （str（city））mode=‘a+‘encoding=‘utf_8_sig‘）
driver.quit（）
print （‘done‘）

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2020-09-04 22:31  空气质量历史数据\
     文件          61  2020-09-04 21:36  空气质量历史数据\0万宁.csv
     文件          61  2020-09-04 21:27  空气质量历史数据\0东方.csv
     文件          61  2020-09-04 21:31  空气质量历史数据\0临高.csv
     文件          61  2020-09-04 21:31  空气质量历史数据\0乐东.csv
     文件          61  2020-09-04 21:37  空气质量历史数据\0五指山.csv
     文件          61  2020-09-04 21:26  空气质量历史数据\0保亭.csv
     文件          61  2020-09-04 21:28  空气质量历史数据\0儋州.csv
     文件          61  2020-09-04 21:27  空气质量历史数据\0定安.csv
     文件          61  2020-09-04 21:35  空气质量历史数据\0屯昌.csv
     文件          61  2020-09-04 21:36  空气质量历史数据\0文昌.csv
     文件          61  2020-09-04 21:27  空气质量历史数据\0昌江.csv
     文件          61  2020-09-04 21:27  空气质量历史数据\0澄迈.csv
     文件          61  2020-09-04 21:34  空气质量历史数据\0琼中.csv
     文件          61  2020-09-04 21:33  空气质量历史数据\0琼海.csv
     文件          70  2020-09-04 21:38  空气质量历史数据\0白沙.csv
     文件          61  2020-09-04 21:32  空气质量历史数据\0陵水.csv
     目录           0  2020-09-05 11:10  空气质量历史数据\demo\
     文件        1298  2020-09-04 21:40  空气质量历史数据\demo\demo.py
     文件        1610  2020-09-04 21:35  空气质量历史数据\demo\ghostdriver.log
     文件         126  2020-09-05 11:10  空气质量历史数据\demo\请先读读我QAQ.txt
     文件        3596  2020-09-04 21:34  空气质量历史数据\七台河.csv
     文件        3301  2020-09-04 22:07  空气质量历史数据\三亚.csv
     文件        3504  2020-09-04 21:34  空气质量历史数据\三明.csv
     文件        4061  2020-09-04 22:07  空气质量历史数据\三门峡.csv
     文件        4121  2020-09-04 21:34  空气质量历史数据\上海.csv
     文件        2974  2020-09-04 22:07  空气质量历史数据\上饶.csv
     文件        4204  2020-09-04 21:27  空气质量历史数据\东莞.csv
     文件        4641  2020-09-04 21:28  空气质量历史数据\东营.csv
     文件        3091  2020-09-04 22:13  空气质量历史数据\中卫.csv
     文件        4107  2020-09-04 21:39  空气质量历史数据\中山.csv
............此处省略358个文件信息

上一篇：USB type C 16Pin
下一篇：a6d355e44937795364dd3f1d9d6b8bee.docx

共有条评论

全网最全、人工补充的空气质量历史数据，爬虫代码在压缩包里.zip

资源简介

资源截图

代码片段和文件信息

评论

相关资源