资源简介
利用Python爬虫抓取网页上的图片,当遇到不合法的URL时,会自动处理异常,不会导致程序崩溃。直到下载完整个页面的图片,程序才会退出
代码片段和文件信息
import urllib
import urllib.request
import re
#传入URL,返回该URL所指的文件的数据流
def download_page(url):
headers = {‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML like Gecko) Chrome/47.0.2526.80 Safari/537.36‘} #对爬虫进行伪装
request = urllib.request.Request(url headers=headers) #构建请求
response = urllib.request.urlopen(request) #获取服务器响应
data = response.read()
return data
def get_image(html):
regx = r‘http://[\S][^:]*\.jpg‘
pattern = re.compile(regx re.I) #忽略大小写
get_img = re.fin
评论
共有 条评论