资源简介
从零开始学Python网络爬虫(所有源代码及书本PPT)
代码片段和文件信息
import requests
from lxml import etree
import csv
import json
# address = ‘上海‘
# par = {‘address‘: address ‘key‘: ‘cb649a25c1f81c1451adbeca73623251‘}
# base = ‘http://restapi.amap.com/v3/geocode/geo‘
# response = requests.get(base par)
# print(response.text)
fp = open(‘C://Users/LP/Desktop/map.csv‘‘wt‘newline=‘‘encoding=‘utf-8‘)
writer = csv.writer(fp)
writer.writerow((‘address‘‘longitude‘‘latitude‘))
headers = {
‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/53.0.2785.143 Safari/537.36‘
}
def get_user_url(url):
url_part = ‘http://www.qiushibaike.com‘
res = requests.get(urlheaders=headers)
selector = etree.HTML(res.text)
url_infos = selector.xpath(‘//div[@class=“article block untagged mb15“]‘)
for url_info in url_infos:
user_part_urls = url_info.xpath(‘div[1]/a[1]/@href‘)
if len(user_part_urls) == 1:
user_part_url = user_part_urls[0]
get_user_address(url_part + user_part_url)
else:
pass
def get_user_address(url):
res = requests.get(url headers=headers)
selector = etree.HTML(res.text)
if selector.xpath(‘//div[2]/div[3]/div[2]/ul/li[4]/text()‘):
address = selector.xpath(‘//div[2]/div[3]/div[2]/ul/li[4]/text()‘)
get_geo(address[0].split(‘ · ‘)[0])
else:
pass
def get_geo(address):
par = {‘address‘: address ‘key‘: ‘cb649a25c1f81c1451adbeca73623251‘}
api = ‘http://restapi.amap.com/v3/geocode/geo‘
res = requests.get(api par)
json_data = json.loads(res.text)
try:
geo = json_data[‘geocodes‘][0][‘location‘]
longitude = geo.split(‘‘)[0]
latitude = geo.split(‘‘)[1]
writer.writerow((addresslongitudelatitude))
except IndexError:
pass
if __name__ == ‘__main__‘:
urls = [‘http://www.qiushibaike.com/text/page/{}/‘.format(str(i)) for i in range(1 36)]
for url in urls:
get_user_url(url)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2018-03-15 16:40 从零开始学Python网络爬虫教学PPT\
文件 165 2018-03-15 16:40 从零开始学Python网络爬虫教学PPT\~$第1章 Python零基础语法入门.pptx
文件 2348566 2018-03-14 09:48 从零开始学Python网络爬虫教学PPT\第10章 表单交互与模拟登录.pptx
文件 1392806 2018-03-14 10:21 从零开始学Python网络爬虫教学PPT\第11章 Selenium模拟浏览器.pptx
文件 2183065 2018-03-14 11:14 从零开始学Python网络爬虫教学PPT\第12章 Scrapy爬虫框架.pptx
文件 424950 2018-03-13 09:01 从零开始学Python网络爬虫教学PPT\第1章 Python零基础语法入门.pptx
文件 489050 2018-03-13 09:34 从零开始学Python网络爬虫教学PPT\第2章 爬虫原理和网页构造.pptx
文件 1184764 2018-03-13 10:31 从零开始学Python网络爬虫教学PPT\第3章 我的第一个爬虫程序.pptx
文件 677357 2018-03-13 11:20 从零开始学Python网络爬虫教学PPT\第4章 正则表达式.pptx
文件 1100467 2018-03-13 14:55 从零开始学Python网络爬虫教学PPT\第5章 Lxm
文件 1021454 2018-03-13 15:25 从零开始学Python网络爬虫教学PPT\第6章 使用API.pptx
文件 362889 2018-03-13 16:04 从零开始学Python网络爬虫教学PPT\第7章 数据库存储.pptx
文件 925176 2018-03-13 16:22 从零开始学Python网络爬虫教学PPT\第8章 多进程爬虫.pptx
文件 1841672 2018-03-13 17:01 从零开始学Python网络爬虫教学PPT\第9章 异步加载.pptx
目录 0 2018-03-15 16:39 从零开始学Python网络爬虫源代码\
目录 0 2018-03-15 16:39 从零开始学Python网络爬虫源代码\.idea\
文件 641 2017-04-26 10:41 从零开始学Python网络爬虫源代码\.idea\misc.xm
文件 276 2017-02-25 20:08 从零开始学Python网络爬虫源代码\.idea\modules.xm
文件 49196 2017-05-29 16:23 从零开始学Python网络爬虫源代码\.idea\workspace.xm
文件 497 2017-04-26 10:41 从零开始学Python网络爬虫源代码\.idea\写书代码.iml
目录 0 2018-03-15 16:39 从零开始学Python网络爬虫源代码\58project\
目录 0 2018-03-15 16:39 从零开始学Python网络爬虫源代码\58project\__pycache__\
文件 2611 2017-04-01 16:31 从零开始学Python网络爬虫源代码\58project\__pycache__\channel_extract.cpython-35.pyc
文件 1880 2017-04-01 16:31 从零开始学Python网络爬虫源代码\58project\__pycache__\page_spider.cpython-35.pyc
文件 1596 2017-02-09 15:35 从零开始学Python网络爬虫源代码\58project\__pycache__\page_spider.cpython-36.pyc
文件 2413 2017-04-01 15:38 从零开始学Python网络爬虫源代码\58project\channel_extract.py
文件 152 2017-02-03 20:10 从零开始学Python网络爬虫源代码\58project\counts.py
文件 753 2017-04-01 16:28 从零开始学Python网络爬虫源代码\58project\main.py
文件 2060 2017-04-01 15:04 从零开始学Python网络爬虫源代码\58project\page_spider.py
文件 2035 2017-03-22 17:24 从零开始学Python网络爬虫源代码\baidumap.py
文件 2520 2017-03-16 16:41 从零开始学Python网络爬虫源代码\compare.py
............此处省略134个文件信息
相关资源
- Python-使用遗传算法和深度学习训练
- Image-analysis-classifaction-and-change-detect
- Thoughtful Machine Learning with Python: A Tes
- 简单图像分类
- 利用python进行数据分析Python For Data
- LearningPython%2C5thEdition.pdf
- Learning Python 5th
- 利用python进行数据分析.pdf (中文完整
- python图和社交网络分析
- 车牌识别系统_python,opencv
- 基于模糊神经网络的目标自动识别
- Python2.7安装包
- python数据科学手册(高清+标签+原版
- Python五子棋(使用pygame包含人人人机
- python深度学习带目录高清pdf
- 深度学习入门:基于Python的理论和实
- Python爬虫教程基于Python3.X
- Python数据科学手册.pdf
- 神经网络实现简单的手写数字识别
- Python Machine Learning( Python机器学习.
- Python高效开发实战——Django、Tornado、
- eclipse中的python插件
- Python编程:从入门到实践 超清pdf 非
- Python3核心编程(第3版)中文文字版
- python机器学习经典修正python3.x版
- python 自然语言处理实战代码部分
- Python测试驱动开发(第二版)中英文
- python编写超级玛丽
- Practical Social Network Analysis with Python
- 《Python编程:从入门到实践》带源代
评论
共有 条评论