自动爬取百度谷歌图片

大小: 3.32MB

文件类型: .zip

金币: 2

下载: 0 次

发布日期: 2023-10-15
语言: 其他
标签: 爬虫图片

高速下载

资源简介

手撸了一个下载器，可以自动下载百度谷歌图片，只要输入搜索关键词即可。内附所需配置驱动以及使用说明。

资源截图

小图大图

代码片段和文件信息

import re
import os
import urllib
import requests
from lxml import etree
import main
import time
global download_time


def get_onepage_urls（onepageurl）:
    if not onepageurl:
        print（‘执行结束‘）
        return [] ‘‘
    try:
        html = requests.get（onepageurl）.text
    except Exception as e:
        print（e）
        pic_urls = []
        fanye_url = ‘‘
        return pic_urls fanye_url
    res = etree.HTML（html）
    pic_urls = re.findall（‘“objURL“:“（.*?）“‘ html re.S）
    fanye_url = res.xpath（‘//*[@id=“page“]/a[10]‘）
    fanye_url = fanye_url[0].attrib[‘href‘]
    fanye_url = ‘http://image.baidu.com‘ + str（fanye_url）
    return pic_urls fanye_url


def down_pic（pic_urls localPath）:
    if not os.path.exists（localPath）:  # 新建文件夹
        os.mkdir（localPath）
    “““给出图片链接列表 下载图片“““
    for i pic_url in enumerate（pic_urls）:
        download_time = str（int（time.time（）*1000000））
        try:
            pic = requests.get（pic_url timeout=15）
            with open（localPath + ‘%s.jpg‘ % download_time ‘wb‘）as f:
                f.write（pic.content）
                print（‘成功下载第%s张图片: %s‘ % （str（i + 1） str（pic_url）））
        except Exception as e:
            print（‘下载第%s张图片时失败: %s‘ % （str（i + 1） str（pic_url）））
            print（e）
            continue

#
# if __name__ == ‘__main__‘:
Baidu = r‘http://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1497491098685_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&ctd=1497491098685%5E00_1519X735&word=‘
url_init_first = Baidu
url_init = url_init_first + urllib.parse.quote（main.keyword safe=‘/‘）   # 将关键词转为url编码
print（url_init）
all_pic_urls = []
urls_init = []
urls_init.append（url_init）

ini = 0    # 从第几页开始爬 第一页为零
while ini < main.pages:
    onepage_urls fanye_url = get_onepage_urls（urls_init[ini]）
    urls_init.append（fanye_url）
    all_pic_urls.extend（onepage_urls）
    ini += 1
down_pic（list（set（all_pic_urls）） main.Download_address）  # 保存位置也可以修改

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件        2217  2018-09-12 10:37  Picture_crawler\Baidu.py
     文件        3599  2018-09-12 10:42  Picture_crawler\Google.py
     文件     6737408  2018-07-27 12:32  Picture_crawler\chromedriver.exe
     文件         567  2018-09-12 10:45  Picture_crawler\main.py
     目录           0  2018-09-12 10:50  Picture_crawler\

共有条评论

自动爬取百度谷歌图片

资源简介

资源截图

代码片段和文件信息

评论

相关资源