资源简介
该案例相对完整,欢饮下载交流。有疑问,可以留言,一起交流探讨并发掘爬虫世界的美!该案例结构清晰,注释明了,可以使大家很好地理解scrapy爬虫框架。
代码片段和文件信息
from scrapy.exceptions import DropItem
import scrapy
#定义图片下载的pipeline
from scrapy.pipelines.images import ImagesPipeline
class ImgPipeline(ImagesPipeline):
#通过抓取的图片url获取一个Request用于下载
def get_media_requests(self item info):
#返回Request根据图片图片url下载
yield scrapy.Request(item[‘image_url‘])
#当下载请求完成后执行该方法
def item_completed(self results item info):
#获取下载地址
image_path = [x[‘path‘] for ok x in results if ok]
#判断是否成功
if not image_path:
raise DropItem(“Item contains no images“)
#将地址存入item
item[‘image_path‘] = image_path
return item
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2020-06-28 11:16 spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\
文件 6148 2020-06-28 11:16 spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\.DS_Store
目录 0 2020-06-28 11:16 __MACOSX\
目录 0 2020-06-28 11:16 __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\
文件 120 2020-06-28 11:16 __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\._.DS_Store
目录 0 2020-06-28 11:12 spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\
文件 6148 2020-06-28 11:12 spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.DS_Store
目录 0 2020-06-28 11:16 __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\
文件 120 2020-06-28 11:12 __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\._.DS_Store
目录 0 2019-08-03 07:24 spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\
文件 304 2019-07-30 10:28 spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\misc.xm
目录 0 2020-06-28 11:16 __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\
文件 230 2019-07-30 10:28 __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\._misc.xm
文件 273 2019-07-30 10:28 spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\modules.xm
文件 230 2019-07-30 10:28 __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\._modules.xm
文件 478 2019-07-30 10:28 spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\spider8.iml
文件 230 2019-07-30 10:28 __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\._spider8.iml
文件 13357 2019-08-03 07:24 spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\workspace.xm
文件 230 2019-08-03 07:24 __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\._workspace.xm
文件 194 2019-08-03 07:24 __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\._.idea
目录 0 2020-06-28 11:12 spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\
文件 6148 2020-06-28 11:12 spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\.DS_Store
目录 0 2020-06-28 11:16 __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\
文件 120 2020-06-28 11:12 __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\._.DS_Store
文件 201494 2019-07-31 09:44 spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\data.json
文件 230 2019-07-31 09:44 __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\._data.json
文件 263 2019-07-30 10:29 spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\scrapy.cfg
文件 230 2019-07-30 10:29 __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\._scrapy.cfg
目录 0 2019-07-31 09:43 spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\scrapytest\
文件 0 2019-07-26 16:23 spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\scrapytest\__init__.py
目录 0 2020-06-28 11:16 __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\scrapytest\
............此处省略1842个文件信息
评论
共有 条评论