资源简介
煎蛋网图片爬虫
代码片段和文件信息
import urllib.request
import os
import base64
def url_open(url):
headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0‘}
req = urllib.request.Request(urlheaders=headers)
response = urllib.request.urlopen(req)
html = response.read()
return html
def get_page(url):
html = url_open(url).decode(‘utf-8‘)
a = html.find(‘current-comment-page‘)+23#‘‘‘偏移23个字符到页数位置‘‘‘
b = html.find(‘]‘a)
return html[a:b]
def find_imgs(url):
html = url_open(url).decode(‘utf-8‘)
img_addrs =[]
a = html.find(‘img src=‘)
while a != -1:
b = html.find(‘.jpg‘aa+255)#从a开始寻找jpg,截止到a+255,既最大字符数
if b != -1:
img_addrs.append(‘http:‘+ html[a+9:b+4])#+9是‘img src=‘到图片链接前的字符数,+4是添加到.jpg的末尾
else:
- 上一篇:python对于文件和异常的处理
- 下一篇:豆瓣电影排名250爬取,并存excel
相关资源
- 从图像数据集读取图片并拼接成大图
- 监控文件夹,发现psd文件自动生成j
- 网易云音乐爬虫(亲测通过)
- 百度图片识别
- 多张图片识别文字(基于AipOcr)
- python批量图片(pysnooper)
- 分布式scrapy-redis爬虫!糗事百科
- 用Python写网络爬虫.pdf(共35页)
- python爬虫-scrapy框架
- python合并PDF文件、图片先转化为A4纸大
- python 爬虫爬取京东代码
- 《用python写网络爬虫》pdf
- python爬虫爬取当当网
- 登陆需要密码以及图片验证的网站 如
- Nodejs实现的一个磁力链接爬虫
- PYTHON爬虫示例21345
- python 爬虫(pyspider)
- python3爬虫采集淘宝商品数据
- python 爬取豌豆荚APP的爬虫
- 多线程网站图片
- python抓取网页图片
- python 采集指定网址的图片并保存到本
- python 淘宝爬虫抓取天猫数据
-
python 微博爬虫 (lxm
l) - python微博爬虫(scrapy)
- 最简单爬虫
- Python采集尤图网美女图片
- python 采集美图录网站的图片
- python 截图并识别图片中的文字(基于
- python图片人脸检测
评论
共有 条评论