• 大小:
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-06-21
  • 语言: Python
  • 标签: Python  源代码  

资源简介

从零开始学Python网络爬虫(所有源代码及书本PPT)

资源截图

代码片段和文件信息

import requests
from lxml import etree
import csv
import json

# address = ‘上海‘
# par = {‘address‘: address ‘key‘: ‘cb649a25c1f81c1451adbeca73623251‘}
# base = ‘http://restapi.amap.com/v3/geocode/geo‘
# response = requests.get(base par)
# print(response.text)

fp = open(‘C://Users/LP/Desktop/map.csv‘‘wt‘newline=‘‘encoding=‘utf-8‘)
writer = csv.writer(fp)
writer.writerow((‘address‘‘longitude‘‘latitude‘))

headers = {
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/53.0.2785.143 Safari/537.36‘
}

def get_user_url(url):
    url_part = ‘http://www.qiushibaike.com‘
    res = requests.get(urlheaders=headers)
    selector = etree.HTML(res.text)
    url_infos = selector.xpath(‘//div[@class=“article block untagged mb15“]‘)
    for url_info in url_infos:
        user_part_urls = url_info.xpath(‘div[1]/a[1]/@href‘)
        if len(user_part_urls) == 1:
            user_part_url = user_part_urls[0]
            get_user_address(url_part + user_part_url)
        else:
            pass

def get_user_address(url):
    res = requests.get(url headers=headers)
    selector = etree.HTML(res.text)
    if selector.xpath(‘//div[2]/div[3]/div[2]/ul/li[4]/text()‘):
        address = selector.xpath(‘//div[2]/div[3]/div[2]/ul/li[4]/text()‘)
        get_geo(address[0].split(‘ · ‘)[0])
    else:
        pass

def get_geo(address):
    par = {‘address‘: address ‘key‘: ‘cb649a25c1f81c1451adbeca73623251‘}
    api = ‘http://restapi.amap.com/v3/geocode/geo‘
    res = requests.get(api par)
    json_data = json.loads(res.text)
    try:
        geo = json_data[‘geocodes‘][0][‘location‘]
        longitude = geo.split(‘‘)[0]
        latitude = geo.split(‘‘)[1]
        writer.writerow((addresslongitudelatitude))
    except IndexError:
        pass

if __name__ == ‘__main__‘:
    urls = [‘http://www.qiushibaike.com/text/page/{}/‘.format(str(i)) for i in range(1 36)]
    for url in urls:
        get_user_url(url)

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-03-15 16:40  从零开始学Python网络爬虫教学PPT\
     文件         165  2018-03-15 16:40  从零开始学Python网络爬虫教学PPT\~$第1章  Python零基础语法入门.pptx
     文件     2348566  2018-03-14 09:48  从零开始学Python网络爬虫教学PPT\第10章  表单交互与模拟登录.pptx
     文件     1392806  2018-03-14 10:21  从零开始学Python网络爬虫教学PPT\第11章  Selenium模拟浏览器.pptx
     文件     2183065  2018-03-14 11:14  从零开始学Python网络爬虫教学PPT\第12章  Scrapy爬虫框架.pptx
     文件      424950  2018-03-13 09:01  从零开始学Python网络爬虫教学PPT\第1章  Python零基础语法入门.pptx
     文件      489050  2018-03-13 09:34  从零开始学Python网络爬虫教学PPT\第2章  爬虫原理和网页构造.pptx
     文件     1184764  2018-03-13 10:31  从零开始学Python网络爬虫教学PPT\第3章  我的第一个爬虫程序.pptx
     文件      677357  2018-03-13 11:20  从零开始学Python网络爬虫教学PPT\第4章  正则表达式.pptx
     文件     1100467  2018-03-13 14:55  从零开始学Python网络爬虫教学PPT\第5章  Lxml库与Xpath语法.pptx
     文件     1021454  2018-03-13 15:25  从零开始学Python网络爬虫教学PPT\第6章  使用API.pptx
     文件      362889  2018-03-13 16:04  从零开始学Python网络爬虫教学PPT\第7章  数据库存储.pptx
     文件      925176  2018-03-13 16:22  从零开始学Python网络爬虫教学PPT\第8章  多进程爬虫.pptx
     文件     1841672  2018-03-13 17:01  从零开始学Python网络爬虫教学PPT\第9章  异步加载.pptx
     目录           0  2018-03-15 16:39  从零开始学Python网络爬虫源代码\
     目录           0  2018-03-15 16:39  从零开始学Python网络爬虫源代码\.idea\
     文件         641  2017-04-26 10:41  从零开始学Python网络爬虫源代码\.idea\misc.xml
     文件         276  2017-02-25 20:08  从零开始学Python网络爬虫源代码\.idea\modules.xml
     文件       49196  2017-05-29 16:23  从零开始学Python网络爬虫源代码\.idea\workspace.xml
     文件         497  2017-04-26 10:41  从零开始学Python网络爬虫源代码\.idea\写书代码.iml
     目录           0  2018-03-15 16:39  从零开始学Python网络爬虫源代码\58project\
     目录           0  2018-03-15 16:39  从零开始学Python网络爬虫源代码\58project\__pycache__\
     文件        2611  2017-04-01 16:31  从零开始学Python网络爬虫源代码\58project\__pycache__\channel_extract.cpython-35.pyc
     文件        1880  2017-04-01 16:31  从零开始学Python网络爬虫源代码\58project\__pycache__\page_spider.cpython-35.pyc
     文件        1596  2017-02-09 15:35  从零开始学Python网络爬虫源代码\58project\__pycache__\page_spider.cpython-36.pyc
     文件        2413  2017-04-01 15:38  从零开始学Python网络爬虫源代码\58project\channel_extract.py
     文件         152  2017-02-03 20:10  从零开始学Python网络爬虫源代码\58project\counts.py
     文件         753  2017-04-01 16:28  从零开始学Python网络爬虫源代码\58project\main.py
     文件        2060  2017-04-01 15:04  从零开始学Python网络爬虫源代码\58project\page_spider.py
     文件        2035  2017-03-22 17:24  从零开始学Python网络爬虫源代码\baidumap.py
     文件        2520  2017-03-16 16:41  从零开始学Python网络爬虫源代码\compare.py
............此处省略134个文件信息

评论

共有 条评论