• 大小: 4KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-06-14
  • 语言: Python
  • 标签: 汽车之家  爬虫  

资源简介

可以分类下载汽车之家图片,自己设定下载哪些部分的图片,可以自己设定

资源截图

代码片段和文件信息

import requests
import re
import time
car_url=“https://www.autohome.com.cn/grade/carhtml/F.html“
zg=[]
temp=[‘A‘‘B‘‘C‘‘D‘‘F‘‘G‘‘H‘‘J‘‘K‘‘L‘‘M‘‘N‘‘O‘‘P‘‘Q‘‘R‘‘S‘‘T‘‘V‘‘W‘‘X‘‘Y‘‘Z‘]
for i in temp:

    car_url=“https://www.autohome.com.cn/grade/carhtml/“+i+“.html“
    zg.append(car_url)
    #print(car_url)
#print(zg)

#下载器
def download(url):
    try:
        response=requests.get(url)
        response.encoding=‘gb2312‘
        if response:
            global html
            html=response.text
            return html
        #print(html)
    except Exception as e:
        print(e)
for car_url in zg:
    download(car_url)
    html_1=html
    img_url_1=re.findall(r‘href=“//car.autohome.com.cn/pic/series/(.*?).html#pvareaid=103448“‘ html_1 )
    #print(len(img_url_1))
    #获取所有B开头车型图片库URL
    #img_url_item=list(map(lambda x: ‘https://car.autohome.com.cn/pic/series‘+ximg_url_1))
    #print(img_url_item)
    temp=[]
    for i in img_url_1:
        #IP为-10.html#pvareaid=2042220,外饰为-1.html#pvareaid=2042220,门板为-3.html#pvareaid=2042220
        img_url_item_2 = ‘https://car.autohome.com.cn/pic/series/‘ + i + ‘-1.html#pvareaid=2042220‘
        #print(img_url_item_2)
        temp.append(img_url_item_2)
    ip_list=temp
    #print(len(ip_list))

    for url in ip_list:
        try:
            ip_response=requests.get(url)
            if ip_response:
            #取出包在里面的网页源码
                html_2=ip_response.text
                #print(html_2)
                #获取文档图片url用正则表达式
                #                img_url=re.findall(r‘                a=img_url[0:12:8]
                #print(a)
                img_url_1= list(map(lambd

评论

共有 条评论