资源简介
根据空气质量历史数据查询官网: https://www.aqistudy.cn/historydata/,通过爬虫+人工手动修改得到的最全面的、最新的空气质量历史数据

代码片段和文件信息
import requests
from lxml import etree
import urllib.parse
headers = {
‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/64.0.3282.204 Safari/537.36‘
}
url = “https://www.aqistudy.cn/historydata/“
response = requests.get(url headers=headers)
text = response.content.decode(‘utf-8‘)
html = etree.HTML(text)
city_set = list()
citys = html.xpath(“//div[@class=‘all‘]/div/ul“)
for city in citys:
messages = city.xpath(“.//li“)
for message in messages:
city_name = message.xpath(“.//a/text()“)
city_name = ““.join(city_name)
city_set.append(city_name)
print(city_set)
import time
from urllib import parse
import pandas as pd
from selenium import webdriver
driver = webdriver.PhantomJS(r‘E:\\Tools\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe‘)
base_url = ‘https://www.aqistudy.cn/historydata/monthdata.php?city=‘
for k in range(0len(city_set)):
city = city_set[k]
print(city)
weburl = (‘%s%s‘ % (base_url parse.quote(city)))
print(weburl)
driver.get(weburl)
time.sleep(1)
dfs = pd.read_html(driver.page_sourceheader=0)[0]
time.sleep(0.5)
dfs.to_csv(r‘E:\\Data\\%s.csv‘% (str(city))mode=‘a+‘encoding=‘utf_8_sig‘)
driver.quit()
print (‘done‘)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2020-09-04 22:31 空气质量历史数据\
文件 61 2020-09-04 21:36 空气质量历史数据\0万宁.csv
文件 61 2020-09-04 21:27 空气质量历史数据\0东方.csv
文件 61 2020-09-04 21:31 空气质量历史数据\0临高.csv
文件 61 2020-09-04 21:31 空气质量历史数据\0乐东.csv
文件 61 2020-09-04 21:37 空气质量历史数据\0五指山.csv
文件 61 2020-09-04 21:26 空气质量历史数据\0保亭.csv
文件 61 2020-09-04 21:28 空气质量历史数据\0儋州.csv
文件 61 2020-09-04 21:27 空气质量历史数据\0定安.csv
文件 61 2020-09-04 21:35 空气质量历史数据\0屯昌.csv
文件 61 2020-09-04 21:36 空气质量历史数据\0文昌.csv
文件 61 2020-09-04 21:27 空气质量历史数据\0昌江.csv
文件 61 2020-09-04 21:27 空气质量历史数据\0澄迈.csv
文件 61 2020-09-04 21:34 空气质量历史数据\0琼中.csv
文件 61 2020-09-04 21:33 空气质量历史数据\0琼海.csv
文件 70 2020-09-04 21:38 空气质量历史数据\0白沙.csv
文件 61 2020-09-04 21:32 空气质量历史数据\0陵水.csv
目录 0 2020-09-05 11:10 空气质量历史数据\demo\
文件 1298 2020-09-04 21:40 空气质量历史数据\demo\demo.py
文件 1610 2020-09-04 21:35 空气质量历史数据\demo\ghostdriver.log
文件 126 2020-09-05 11:10 空气质量历史数据\demo\请先读读我QAQ.txt
文件 3596 2020-09-04 21:34 空气质量历史数据\七台河.csv
文件 3301 2020-09-04 22:07 空气质量历史数据\三亚.csv
文件 3504 2020-09-04 21:34 空气质量历史数据\三明.csv
文件 4061 2020-09-04 22:07 空气质量历史数据\三门峡.csv
文件 4121 2020-09-04 21:34 空气质量历史数据\上海.csv
文件 2974 2020-09-04 22:07 空气质量历史数据\上饶.csv
文件 4204 2020-09-04 21:27 空气质量历史数据\东莞.csv
文件 4641 2020-09-04 21:28 空气质量历史数据\东营.csv
文件 3091 2020-09-04 22:13 空气质量历史数据\中卫.csv
文件 4107 2020-09-04 21:39 空气质量历史数据\中山.csv
............此处省略358个文件信息
相关资源
- 很好用的网站前端页面爬取工具
- 爬取豆瓣电影TOP250程序,包含非常详
- Web Scraper 爬虫 网页抓取 Chrome插件
- 爬取新浪微博上的妹纸照片的爬虫程
- 中国行政区划到村总.txt
- Lucene(搜索)Demo
- 机械主题爬虫的设计与实现
- 模拟登录一些常见的网站
- NBA数据爬虫
- Chrome插件-XPath Helper 完成Bing每日壁纸
- 读秀包库全文器.zip
- 微博图片爬虫exe
- 网络爬虫的设计与实现-毕业设计毕业
- 天气数据爬虫与可视化分析
- 百度图片搜索-爬虫批量高清大图
- 网络爬虫--用来提取网页内容和URL的程
- 基于.net开发的网络爬虫
- Jsoup网络爬虫
- TeleportUltra中文破解版
- 网页爬虫 非常实用工具
- 2018电影票房分析numpypandasmatplotlib
- 关于爬虫如何做js逆向的思路
- 分布式爬虫
- 自动爬取百度谷歌图片
- 基于社交网络的情绪化分析
- 智联招聘爬虫
- 爬虫+分词+Word2vec向量化的实现.zip
- 妹子图爬虫批量妹子图.rar
- 微软官方推荐.NET平台的爬虫软件,
- scrapy爬虫完整案例.zip
评论
共有 条评论