汽车之家图片爬取

大小: 4KB

文件类型: .py

金币: 1

下载: 0 次

发布日期: 2021-06-14
语言: Python
标签: 汽车之家 爬虫

高速下载

资源简介

可以分类下载汽车之家图片，自己设定下载哪些部分的图片，可以自己设定

资源截图

小图大图

代码片段和文件信息

import requests
import re
import time
car_url=“https://www.autohome.com.cn/grade/carhtml/F.html“
zg=[]
temp=[‘A‘‘B‘‘C‘‘D‘‘F‘‘G‘‘H‘‘J‘‘K‘‘L‘‘M‘‘N‘‘O‘‘P‘‘Q‘‘R‘‘S‘‘T‘‘V‘‘W‘‘X‘‘Y‘‘Z‘]
for i in temp:

    car_url=“https://www.autohome.com.cn/grade/carhtml/“+i+“.html“
    zg.append（car_url）
    #print（car_url）
#print（zg）

#下载器
def download（url）:
    try:
        response=requests.get（url）
        response.encoding=‘gb2312‘
        if response:
            global html
            html=response.text
            return html
        #print（html）
    except Exception as e:
        print（e）
for car_url in zg:
    download（car_url）
    html_1=html
    img_url_1=re.findall（r‘href=“//car.autohome.com.cn/pic/series/（.*?）.html#pvareaid=103448“‘ html_1 ）
    #print（len（img_url_1））
    #获取所有B开头车型图片库URL
    #img_url_item=list（map（lambda x: ‘https://car.autohome.com.cn/pic/series‘+ximg_url_1））
    #print（img_url_item）
    temp=[]
    for i in img_url_1:
        #IP为-10.html#pvareaid=2042220，外饰为-1.html#pvareaid=2042220，门板为-3.html#pvareaid=2042220
        img_url_item_2 = ‘https://car.autohome.com.cn/pic/series/‘ + i + ‘-1.html#pvareaid=2042220‘
        #print（img_url_item_2）
        temp.append（img_url_item_2）
    ip_list=temp
    #print（len（ip_list））

    for url in ip_list:
        try:
            ip_response=requests.get（url）
            if ip_response:
            #取出包在里面的网页源码
                html_2=ip_response.text
                #print（html_2）
                #获取文档图片url用正则表达式
                #                img_url=re.findall（r‘                a=img_url[0:12:8]
                #print（a）
                img_url_1= list（map（lambd

上一篇：python实现有向图单源最短路径迪杰斯特拉算法
下一篇：爬取汽车之家指定配置信息

共有条评论

汽车之家图片爬取

资源简介

资源截图

代码片段和文件信息

评论

相关资源