资源简介

该案例相对完整,欢饮下载交流。有疑问,可以留言,一起交流探讨并发掘爬虫世界的美!该案例结构清晰,注释明了,可以使大家很好地理解scrapy爬虫框架。

资源截图

代码片段和文件信息

from scrapy.exceptions import DropItem
import scrapy
#定义图片下载的pipeline
from scrapy.pipelines.images import ImagesPipeline


class ImgPipeline(ImagesPipeline):
    #通过抓取的图片url获取一个Request用于下载
    def get_media_requests(self item info):
        #返回Request根据图片图片url下载
        yield scrapy.Request(item[‘image_url‘])
    #当下载请求完成后执行该方法
    def item_completed(self results item info):
        #获取下载地址
        image_path = [x[‘path‘] for ok x in results if ok]
        #判断是否成功
        if not image_path:
            raise DropItem(“Item contains no images“)
        #将地址存入item
        item[‘image_path‘] = image_path
        return item

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2020-06-28 11:16  spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\
     文件        6148  2020-06-28 11:16  spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\.DS_Store
     目录           0  2020-06-28 11:16  __MACOSX\
     目录           0  2020-06-28 11:16  __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\
     文件         120  2020-06-28 11:16  __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\._.DS_Store
     目录           0  2020-06-28 11:12  spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\
     文件        6148  2020-06-28 11:12  spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.DS_Store
     目录           0  2020-06-28 11:16  __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\
     文件         120  2020-06-28 11:12  __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\._.DS_Store
     目录           0  2019-08-03 07:24  spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\
     文件         304  2019-07-30 10:28  spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\misc.xml
     目录           0  2020-06-28 11:16  __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\
     文件         230  2019-07-30 10:28  __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\._misc.xml
     文件         273  2019-07-30 10:28  spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\modules.xml
     文件         230  2019-07-30 10:28  __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\._modules.xml
     文件         478  2019-07-30 10:28  spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\spider8.iml
     文件         230  2019-07-30 10:28  __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\._spider8.iml
     文件       13357  2019-08-03 07:24  spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\workspace.xml
     文件         230  2019-08-03 07:24  __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\.idea\._workspace.xml
     文件         194  2019-08-03 07:24  __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\._.idea
     目录           0  2020-06-28 11:12  spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\
     文件        6148  2020-06-28 11:12  spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\.DS_Store
     目录           0  2020-06-28 11:16  __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\
     文件         120  2020-06-28 11:12  __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\._.DS_Store
     文件      201494  2019-07-31 09:44  spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\data.json
     文件         230  2019-07-31 09:44  __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\._data.json
     文件         263  2019-07-30 10:29  spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\scrapy.cfg
     文件         230  2019-07-30 10:29  __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\._scrapy.cfg
     目录           0  2019-07-31 09:43  spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\scrapytest\
     文件           0  2019-07-26 16:23  spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\scrapytest\__init__.py
     目录           0  2020-06-28 11:16  __MACOSX\spider鐖櫕鐖彇鏈€鏂版厱璇剧綉妗堜緥\spider\scrapytest\scrapytest\
............此处省略1842个文件信息

评论

共有 条评论