• 大小: 834KB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2021-01-01
  • 语言: Python
  • 标签: python  urllib  爬虫  

资源简介

指定爬虫depth、线程数, python实现并行爬虫

资源截图

代码片段和文件信息

“““
/***************************************************************************
 *
 * Copyright (c) 2015 Baidu.com Inc. All Rights Reserved
 *
 **************************************************************************/



/**
 * @file fetcher.py
 * @author zhangruiqing01(zhangruiqing01@baidu.com)
 * @date 2015/08/31 10:20:38
 * @version $Revision$
 * @brief
 *

 **/

“““

import urllib
import socket
import re
import logging as log
import MyHtmlParser
import chardet
from threading import Timer
import urllib2
import StringIO
import gzip

class Fetcher:
    “““
    Implement fetching functions of single thread
    “““
    def __init__(self url output timeout):
        self.url = url
        self.output_dir = output
        self.timeout = timeout


 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2015-09-06 11:30  spider\
     目录           0  2015-08-31 15:11  spider\.idea\
     文件           6  2015-08-31 15:11  spider\.idea\.name
     文件        1177  2015-08-31 17:10  spider\.idea\misc.xml
     文件         264  2015-08-31 15:11  spider\.idea\modules.xml
     文件         284  2015-08-31 15:11  spider\.idea\spider.iml
     文件         164  2015-08-31 15:11  spider\.idea\vcs.xml
     文件       41897  2015-09-06 11:33  spider\.idea\workspace.xml
     文件         164  2015-09-06 11:25  spider\a.conf
     文件        4379  2015-09-06 11:29  spider\fetcher.py
     文件        5519  2015-09-06 11:30  spider\spider.py
     文件        1411  2015-09-01 14:01  spider\MyHtmlParser.py
     目录           0  2015-09-06 11:32  spider\output\
     文件        5008  2015-09-06 11:32  spider\output\092303de06f2a1bce554afe1d595a76b.jpg
     文件       17266  2015-09-06 11:32  spider\output\0d60319209ecb07398ab7efa76b6a7c2.png
     文件       10812  2015-09-06 11:32  spider\output\0e67d97b2c03219fa4f3a0c726a2b8b1.jpg
     文件        3697  2015-09-06 11:33  spider\output\10723704e2f47141aa211bb80470212c.jpg
     文件       17294  2015-09-06 11:32  spider\output\1368c78c635dafd0890cf9a144b279f8.jpg
     文件          44  2015-09-06 11:33  spider\output\1c1e9ccb7bc8a4cd4e25372d2995f6af.gif
     文件        6227  2015-09-06 11:32  spider\output\1ef2da30f9ac474d736b9fa235ee580f.jpg
     文件        2867  2015-09-06 11:32  spider\output\25552605e478c42f796cd14b6a72146f.jpg
     文件        5983  2015-09-06 11:32  spider\output\27ecfbf1cffff7aa008bfae5a3a1fe0e.jpg
     文件        6611  2015-09-06 11:33  spider\output\287f2a2f7786cec927134e0351f955c2.jpg
     文件       20588  2015-09-06 11:32  spider\output\2bcb52e1b15ce041598f890370ef9694.png
     文件       12461  2015-09-06 11:27  spider\output\38d2ff8a74804e0b15fbbc52f1e4402e.jpg
     文件       11432  2015-09-06 11:32  spider\output\3db92ab8ad4a0f1127003399698a4850.jpg
     文件        4952  2015-09-06 11:32  spider\output\48b1cb0b91d61f0a58cd7780b2331ab3.jpg
     文件        8381  2015-09-06 11:32  spider\output\4d18dca54eb8b215ae34c2f046f84582.jpg
     文件        5693  2015-09-06 11:32  spider\output\504fb102612271c388cb87679393d36d.jpg
     文件        8177  2015-09-06 11:31  spider\output\562f99e53900ebcfd2ca05a68586fb5c.jpg
     文件        5534  2015-09-06 11:32  spider\output\5dcccc561961c297f07fcfd580bb8ebd.jpg
............此处省略43个文件信息

评论

共有 条评论