资源简介
指定爬虫depth、线程数, python实现并行爬虫
代码片段和文件信息
“““
/***************************************************************************
*
* Copyright (c) 2015 Baidu.com Inc. All Rights Reserved
*
**************************************************************************/
/**
* @file fetcher.py
* @author zhangruiqing01(zhangruiqing01@baidu.com)
* @date 2015/08/31 10:20:38
* @version $Revision$
* @brief
*
**/
“““
import urllib
import socket
import re
import logging as log
import MyHtmlParser
import chardet
from threading import Timer
import urllib2
import StringIO
import gzip
class Fetcher:
“““
Implement fetching functions of single thread
“““
def __init__(self url output timeout):
self.url = url
self.output_dir = output
self.timeout = timeout
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2015-09-06 11:30 spider\
目录 0 2015-08-31 15:11 spider\.idea\
文件 6 2015-08-31 15:11 spider\.idea\.name
文件 1177 2015-08-31 17:10 spider\.idea\misc.xm
文件 264 2015-08-31 15:11 spider\.idea\modules.xm
文件 284 2015-08-31 15:11 spider\.idea\spider.iml
文件 164 2015-08-31 15:11 spider\.idea\vcs.xm
文件 41897 2015-09-06 11:33 spider\.idea\workspace.xm
文件 164 2015-09-06 11:25 spider\a.conf
文件 4379 2015-09-06 11:29 spider\fetcher.py
文件 5519 2015-09-06 11:30 spider\spider.py
文件 1411 2015-09-01 14:01 spider\MyHtmlParser.py
目录 0 2015-09-06 11:32 spider\output\
文件 5008 2015-09-06 11:32 spider\output\092303de06f2a1bce554afe1d595a76b.jpg
文件 17266 2015-09-06 11:32 spider\output\0d60319209ecb07398ab7efa76b6a7c2.png
文件 10812 2015-09-06 11:32 spider\output\0e67d97b2c03219fa4f3a0c726a2b8b1.jpg
文件 3697 2015-09-06 11:33 spider\output\10723704e2f47141aa211bb80470212c.jpg
文件 17294 2015-09-06 11:32 spider\output\1368c78c635dafd0890cf9a144b279f8.jpg
文件 44 2015-09-06 11:33 spider\output\1c1e9ccb7bc8a4cd4e25372d2995f6af.gif
文件 6227 2015-09-06 11:32 spider\output\1ef2da30f9ac474d736b9fa235ee580f.jpg
文件 2867 2015-09-06 11:32 spider\output\25552605e478c42f796cd14b6a72146f.jpg
文件 5983 2015-09-06 11:32 spider\output\27ecfbf1cffff7aa008bfae5a3a1fe0e.jpg
文件 6611 2015-09-06 11:33 spider\output\287f2a2f7786cec927134e0351f955c2.jpg
文件 20588 2015-09-06 11:32 spider\output\2bcb52e1b15ce041598f890370ef9694.png
文件 12461 2015-09-06 11:27 spider\output\38d2ff8a74804e0b15fbbc52f1e4402e.jpg
文件 11432 2015-09-06 11:32 spider\output\3db92ab8ad4a0f1127003399698a4850.jpg
文件 4952 2015-09-06 11:32 spider\output\48b1cb0b91d61f0a58cd7780b2331ab3.jpg
文件 8381 2015-09-06 11:32 spider\output\4d18dca54eb8b215ae34c2f046f84582.jpg
文件 5693 2015-09-06 11:32 spider\output\504fb102612271c388cb87679393d36d.jpg
文件 8177 2015-09-06 11:31 spider\output\562f99e53900ebcfd2ca05a68586fb5c.jpg
文件 5534 2015-09-06 11:32 spider\output\5dcccc561961c297f07fcfd580bb8ebd.jpg
............此处省略43个文件信息
相关资源
- python一个打砖块的小游戏
- python实验指导书 图文高清版
- python主动安装第三方库
- python爬取豆瓣top250电影信息
- python绘制 大蟒蛇
- python小程序(数组排序)
- Python去水印(基于cv2)
- Python 数据结构入门 - 二叉搜索树(
- python空心电感计算器
- python除法.docx
- 抽奖背后的秘密(python抽奖逻辑)
- 绘制统计学直方图茎叶图(matplotlib)
- python求解标准差
- python数据分析与处理
- 利用Python将照片在Excel中利用点阵图显
- python turtle 跳房子
- python 人群计数
- Python调用第三方API换脸
- “去哪儿吃”帮你选餐厅(python代码
- python 控制台登陆密码验证
- KNN算法的Python实现(datingrecd.ipynb)
- python核心编程第二版-习题答案
- python爬取笔趣阁小说
- Python程序设计基础试题以及答案(3
- python聊天-服务端与客户端
- python递归求最大公约数
- 用python画皮卡丘(基于turtle)
- 伟哥的python私房菜(中国程序员).
- pip一键升级(python脚本)
- 我的世界python编程——天空行走py格式
评论
共有 条评论