• 大小: 3.32MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-10-15
  • 语言: 其他
  • 标签: 爬虫  图片  

资源简介

手撸了一个下载器,可以自动下载百度谷歌图片,只要输入搜索关键词即可。内附所需配置驱动以及使用说明。

资源截图

代码片段和文件信息

import re
import os
import urllib
import requests
from lxml import etree
import main
import time
global download_time


def get_onepage_urls(onepageurl):
    if not onepageurl:
        print(‘执行结束‘)
        return [] ‘‘
    try:
        html = requests.get(onepageurl).text
    except Exception as e:
        print(e)
        pic_urls = []
        fanye_url = ‘‘
        return pic_urls fanye_url
    res = etree.HTML(html)
    pic_urls = re.findall(‘“objURL“:“(.*?)“‘ html re.S)
    fanye_url = res.xpath(‘//*[@id=“page“]/a[10]‘)
    fanye_url = fanye_url[0].attrib[‘href‘]
    fanye_url = ‘http://image.baidu.com‘ + str(fanye_url)
    return pic_urls fanye_url


def down_pic(pic_urls localPath):
    if not os.path.exists(localPath):  # 新建文件夹
        os.mkdir(localPath)
    “““给出图片链接列表 下载图片“““
    for i pic_url in enumerate(pic_urls):
        download_time = str(int(time.time()*1000000))
        try:
            pic = requests.get(pic_url timeout=15)
            with open(localPath + ‘%s.jpg‘ % download_time ‘wb‘)as f:
                f.write(pic.content)
                print(‘成功下载第%s张图片: %s‘ % (str(i + 1) str(pic_url)))
        except Exception as e:
            print(‘下载第%s张图片时失败: %s‘ % (str(i + 1) str(pic_url)))
            print(e)
            continue

#
# if __name__ == ‘__main__‘:
Baidu = r‘http://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1497491098685_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&ctd=1497491098685%5E00_1519X735&word=‘
url_init_first = Baidu
url_init = url_init_first + urllib.parse.quote(main.keyword safe=‘/‘)   # 将关键词转为url编码
print(url_init)
all_pic_urls = []
urls_init = []
urls_init.append(url_init)

ini = 0    # 从第几页开始爬 第一页为零
while ini < main.pages:
    onepage_urls fanye_url = get_onepage_urls(urls_init[ini])
    urls_init.append(fanye_url)
    all_pic_urls.extend(onepage_urls)
    ini += 1
down_pic(list(set(all_pic_urls)) main.Download_address)  # 保存位置也可以修改

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件        2217  2018-09-12 10:37  Picture_crawler\Baidu.py
     文件        3599  2018-09-12 10:42  Picture_crawler\Google.py
     文件     6737408  2018-07-27 12:32  Picture_crawler\chromedriver.exe
     文件         567  2018-09-12 10:45  Picture_crawler\main.py
     目录           0  2018-09-12 10:50  Picture_crawler\

评论

共有 条评论