资源简介
根据空气质量历史数据查询官网: https://www.aqistudy.cn/historydata/,通过爬虫+人工手动修改得到的最全面的、最新的空气质量历史数据
代码片段和文件信息
import requests
from lxml import etree
import urllib.parse
headers = {
‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/64.0.3282.204 Safari/537.36‘
}
url = “https://www.aqistudy.cn/historydata/“
response = requests.get(url headers=headers)
text = response.content.decode(‘utf-8‘)
html = etree.HTML(text)
city_set = list()
citys = html.xpath(“//div[@class=‘all‘]/div/ul“)
for city in citys:
messages = city.xpath(“.//li“)
for message in messages:
city_name = message.xpath(“.//a/text()“)
city_name = ““.join(city_name)
city_set.append(city_name)
print(city_set)
import time
from urllib import parse
import pandas as pd
from selenium import webdriver
driver = webdriver.PhantomJS(r‘E:\\Tools\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe‘)
base_url = ‘https://www.aqistudy.cn/historydata/monthdata.php?city=‘
for k in range(0len(city_set)):
city = city_set[k]
print(city)
weburl = (‘%s%s‘ % (base_url parse.quote(city)))
print(weburl)
driver.get(weburl)
time.sleep(1)
dfs = pd.read_html(driver.page_sourceheader=0)[0]
time.sleep(0.5)
dfs.to_csv(r‘E:\\Data\\%s.csv‘% (str(city))mode=‘a+‘encoding=‘utf_8_sig‘)
driver.quit()
print (‘done‘)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2020-09-04 22:31 空气质量历史数据\
文件 61 2020-09-04 21:36 空气质量历史数据\0万宁.csv
文件 61 2020-09-04 21:27 空气质量历史数据\0东方.csv
文件 61 2020-09-04 21:31 空气质量历史数据\0临高.csv
文件 61 2020-09-04 21:31 空气质量历史数据\0乐东.csv
文件 61 2020-09-04 21:37 空气质量历史数据\0五指山.csv
文件 61 2020-09-04 21:26 空气质量历史数据\0保亭.csv
文件 61 2020-09-04 21:28 空气质量历史数据\0儋州.csv
文件 61 2020-09-04 21:27 空气质量历史数据\0定安.csv
文件 61 2020-09-04 21:35 空气质量历史数据\0屯昌.csv
文件 61 2020-09-04 21:36 空气质量历史数据\0文昌.csv
文件 61 2020-09-04 21:27 空气质量历史数据\0昌江.csv
文件 61 2020-09-04 21:27 空气质量历史数据\0澄迈.csv
文件 61 2020-09-04 21:34 空气质量历史数据\0琼中.csv
文件 61 2020-09-04 21:33 空气质量历史数据\0琼海.csv
文件 70 2020-09-04 21:38 空气质量历史数据\0白沙.csv
文件 61 2020-09-04 21:32 空气质量历史数据\0陵水.csv
目录 0 2020-09-05 11:10 空气质量历史数据\demo\
文件 1298 2020-09-04 21:40 空气质量历史数据\demo\demo.py
文件 1610 2020-09-04 21:35 空气质量历史数据\demo\ghostdriver.log
文件 126 2020-09-05 11:10 空气质量历史数据\demo\请先读读我QAQ.txt
文件 3596 2020-09-04 21:34 空气质量历史数据\七台河.csv
文件 3301 2020-09-04 22:07 空气质量历史数据\三亚.csv
文件 3504 2020-09-04 21:34 空气质量历史数据\三明.csv
文件 4061 2020-09-04 22:07 空气质量历史数据\三门峡.csv
文件 4121 2020-09-04 21:34 空气质量历史数据\上海.csv
文件 2974 2020-09-04 22:07 空气质量历史数据\上饶.csv
文件 4204 2020-09-04 21:27 空气质量历史数据\东莞.csv
文件 4641 2020-09-04 21:28 空气质量历史数据\东营.csv
文件 3091 2020-09-04 22:13 空气质量历史数据\中卫.csv
文件 4107 2020-09-04 21:39 空气质量历史数据\中山.csv
............此处省略358个文件信息
相关资源
- 爬虫代码实现.rar
-
集搜客-爬取数据xm
l转Excel - 基于.net的网络爬虫
- HttpHelper 爬虫应用类库 苏飞万能框架
- 北京2013-2018年期间空气质量历史数据
- C超级爬虫.zip
- 爬取淘宝店铺商品销量,规格等参数
- 模拟Digest认证的登录demo
- 一个图片爬虫和音乐爬虫
- 爬虫项目完整代码
- 网络爬虫,多功能,有界面显示,代
- jsoup从网络上抓取图片
- R语言微博爬虫RWEIBO
- 廖雪峰商业爬虫
- 根据关键词使用scrapy爬取今日头条网
- xpath_helper.crx(chrome爬虫网页解析工具
- 基于Web的网络爬虫的设计与实现.pdf
- 百姓网二手房源出售信息采集爬虫源
- 12306爬虫源码
- 京东商品爬虫
- 网络爬虫实现对北京租房信息的爬取
- SciHub神器,基于爬虫原理
- 使用scrapy爬去伯乐在线文章
- 天眼查爬虫亲测可以用
- Node.js-wechatcrawler一个微信文章抓取爬
- 基于WebKit浏览器引擎的动态页面数据
- 《爬虫入门到精通课程》视频课件.
- 2018的车辆型号
- 窗体程序爬虫
- 京东/天猫scrapy爬虫
评论
共有 条评论