python图片爬取.rar

大小: 2KB

文件类型: .rar

金币: 2

下载: 0 次

发布日期: 2021-05-15
语言: Python
标签: python 爬虫图片

高速下载

资源简介

运行程序,输入搜索关键词,然后输入文件名称并输入需要爬取的数量 ,所需图片就会下载到当前所建的目录里

资源截图

小图大图

代码片段和文件信息

import re
import requests
from urllib import error
from bs4 import BeautifulSoup
import os

num = 0
numPicture = 0
file = ‘‘
List = []


def Find（url）:
    global List
    print（‘正在检测图片总数，请稍等.....‘）
    t = 0
    i = 1
    s = 0
    while t < 1000:
        Url = url + str（t）
        try:
            Result = requests.get（Url timeout=7）
        except baseException:
            t = t + 60
            continue
        else:
            result = Result.text
            pic_url = re.findall（‘“objURL“:“（.*?）“‘ result re.S）  # 先利用正则表达式找到图片url
            s += len（pic_url）
            if len（pic_url） == 0:
                break
            else:
                List.append（pic_url）
                t = t + 60
    return s


def recommend（url）:
    Re = []
    try:
        html = requests.get（url）
    except error.HTTPError as e:
        return
    else:
        html.encoding = ‘utf-8‘
        bsObj = BeautifulSoup（html.text ‘html.parser‘）
        div = bsObj.find（‘div‘ id=‘topRS‘）
        if div is not None:
            listA = div.findAll（‘a‘）
            for i in listA:
                if i is not None:
                    Re.append（i.get_text（））
        return Re


def dowmloadPicture（html keyword）:
    global num
    # t =0
    pic_url = re.findall（‘“objURL“:“（.*?）“‘ html re.S）  # 先利用正则表达式找到图片url
    print（‘找到关键词:‘ + keyword + ‘的图片，即将开始下载图片...‘）
    for each in pic_url:
        print（‘正在下载第‘ + str（num + 1） + ‘张图片，图片地址:‘ + str（each））
        try:
            if each is not None:
                pic = requests.get（each timeout=7）
            else:
                continue
        except baseException:
            print（‘错误，当前图片无法下载‘）
            continue
        else:
            string = file + r‘\\‘ + keyword + ‘_‘ + str（num） + ‘.jpg‘
            fp = open（string ‘wb‘）
            fp.write（pic.content）
            fp.close（）
            num += 1
        if num >= numPicture:
            return


if __name__ == ‘__main__‘:  # 主函数入口
    word = input（“请输入搜索关键词（可以是人名，地名等）: “）
    # add = ‘http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%BC%A0%E5%A4%A9%E7%88%B1&pn=120‘
    url = ‘http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=‘ + word + ‘&pn=‘
    tot = Find（url）
    Recommend = recommend（url）  # 记录相关推荐
    print（‘经过检测%s类图片共有%d张‘ % （word tot））
    numPicture = int（input（‘请输入想要下载的图片数量 ‘））
    file = input（‘请建立一个存储图片的文件夹，输入文件夹名称即可‘）
    y = os.path.exists（file）
    if y == 1:
        print（‘该文件已存在，请重新输入‘）
        file = input（‘请建立一个存储图片的文件夹，）输入文件夹名称即可‘）
        os.mkdir（file）
    else:
        os.mkdir（file）
    t = 0
    tmp = url
    while t < numPicture:
        try:
            url = tmp + str（t）
            result = requests.get（url timeout=10）
            print（url）
        except error.HTTPError as e:
            print（‘网络错误，请调整网络后重试‘）
            t = t + 60
        else:
            dowmloadPictur

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件       3574  2019-08-30 11:52  main.py

----------- ---------  ---------- -----  ----

                 3574                    1

上一篇：人工免疫算法python
下一篇：在我的世界Minecraft 中用Python搭建剑球游戏

共有条评论

python图片爬取.rar

资源简介

资源截图

代码片段和文件信息

评论

相关资源