资源简介
用python爬取网络资源图片,学习的小例子。网络爬虫案例
代码片段和文件信息
#coding=utf-8
import requests
from bs4 import BeautifulSoup
import os
all_url = ‘http://www.mzitu.com‘
#http请求头
Hostreferer = {
‘User-Agent‘:‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)‘
‘Referer‘:‘http://www.mzitu.com‘
}
Picreferer = {
‘User-Agent‘:‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)‘
‘Referer‘:‘http://i.meizitu.net‘
}
#此请求头破解盗链
start_html = requests.get(all_urlheaders = Hostreferer)
#保存地址
path = ‘picture/‘
#找寻最大页数
soup = BeautifulSoup(start_html.text“html.parser“)
page = soup.find_all(‘a‘class_=‘page-numbers‘)
max_page = page[-2].text
same_url = ‘http://www.mzitu.com/page/‘
for n in range(1int(max_page)+1):
ul = same_url+str(n)
start_html = requests.get(ul headers = Hostreferer)
soup = BeautifulSoup(start_html.text“html.parser“)
all_a = soup.find(‘div‘class_=‘postlist‘).find_all(‘a‘target=‘_blank‘)
for a in all_a:
title = a.get_text() #提取文本
if(title != ‘‘):
print(“准备扒取:“+title)
#win不能创建带?的目录
if(os.path.exists(path+title.strip().replace(‘?‘‘‘))):
#print(‘目录已存在‘)
flag=1
else:
os.makedirs(path + title.s
- 上一篇:python+tensorflow的yolo实现代码
- 下一篇:分布交通流预测计算
相关资源
- python实现SGBM图像匹配算法
- python实现灰度直方图均衡化
- scrapy_qunar_one
- Python学习全系列教程永久可用
- python简明教程.chm
- 抽奖大转盘python的图形化界面
- 双边滤波器实验报告及代码python
- python +MYSQL+HTML实现21蛋糕网上商城
- Python-直播答题助手自动检测出题搜索
- OpenCV入门教程+OpenCV官方教程中文版
- Python 串口工具源码+.exe文件
- Python开发的全栈股票系统.zip
- Python操作Excel表格并将其中部分数据写
- python书籍 PDF
- 利用python绘制散点图
- python+labview+No1.vi
- 老男孩python项目实战
- python源码制作whl文件.rar
- python3.5可用的scipy
- PYTHON3 经典50案例.pptx
- 计算机科学导论-python.pdf
- python模拟鼠标点击屏幕
- windows鼠标自动点击py脚本
- 鱼c小甲鱼零基础学python全套课后题和
- Python 练习题100道
- Practical Programming 2nd Edition
- wxPython Application Development Cookbook
- python 3.6
- Python 3.5.2 中文文档 互联网唯一CHM版本
- python3.5.2.chm官方文档
评论
共有 条评论