资源简介
1.从一个给定的网址中分析其所包含的 URL 并爬取对应的网页,直到爬取完全部
不重复的网页为止。
2.支持分布式爬取,同时记录输出每一个网页的大小。
3.采用多线程结构设计,实现高性能的网络爬虫。

代码片段和文件信息
from workers import app
url=‘http://www.csu.edu.cn/‘
if __name__ == ‘__main__‘:
app.send_task(‘task.thread_crawling‘ args=(url))
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2018-12-17 20:45 实验三\
目录 0 2018-12-26 16:21 实验三\.idea\
文件 201 2018-12-09 04:09 实验三\.idea\misc.xm
文件 270 2018-12-09 04:03 实验三\.idea\modules.xm
文件 29367 2018-12-26 16:21 实验三\.idea\workspace.xm
文件 515 2018-12-09 04:09 实验三\.idea\实验三.iml
文件 141 2018-12-16 16:20 实验三\exec_crawling.py
文件 2564 2018-12-16 16:26 实验三\task.py
目录 0 2018-12-09 05:57 实验三\venv\
目录 0 2018-12-09 04:03 实验三\venv\Include\
目录 0 2018-12-09 04:03 实验三\venv\Lib\
目录 0 2018-12-09 04:05 实验三\venv\Lib\site-packages\
目录 0 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\
目录 0 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp-2.3.2.dist-info\
文件 4 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp-2.3.2.dist-info\INSTALLER
文件 2372 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp-2.3.2.dist-info\LICENSE.txt
文件 6052 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp-2.3.2.dist-info\me
文件 2263 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp-2.3.2.dist-info\RECORD
文件 5 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp-2.3.2.dist-info\top_level.txt
文件 110 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp-2.3.2.dist-info\WHEEL
文件 4160 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\abstract_channel.py
文件 3330 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\basic_message.py
文件 71260 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\channel.py
文件 25749 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\connection.py
文件 7164 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\exceptions.py
文件 178 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\five.py
文件 5985 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\method_framing.py
文件 2409 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\platform.py
文件 348 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\protocol.py
文件 5758 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\sasl.py
文件 17257 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\serialization.py
............此处省略1610个文件信息
相关资源
- Pythonamp;课堂amp;笔记(高淇amp;400;集第
- Python中Numpy库最新教程
- 用python编写的移动彩信的发送程序
- Python全栈学习笔记面向对象大作业:
- python实现的ftp自动上传、下载脚本
- DS18B20分布式多点测温的Proteus仿真
- Python版的A*寻路算法
- IronPython IDE
- curve分布式存储系统 v0.1.3
- curve分布式存储系统 v0.1.4
- VS1053B编解码器的VDR分布式声音采集卡
- 很好用的网站前端页面爬取工具
- 基于ARM7的分布式远程测控系统设计
- 一个考虑土壤水侧向运动的分布式墒
- 分布式管理控制式计热表
- Guide to Reliable Distributed Systems
- CC2530的分布式无线数据采集系统设计
- PPP-BOTDA分布式光纤传感技术在水工结
- pip-10.0.1.tar.gz
- Data Science from Scratch 2nd Edition
- 基于Greenplum Hadoop- 分布式平台的大数
- shape_predictor_68_face_landmarks.dat.bz2 68个标
- 分布式系统:概念与设计第5版完整书
- 爬取豆瓣电影TOP250程序,包含非常详
- 并网光伏逆变器并网特性研究
- Web Scraper 爬虫 网页抓取 Chrome插件
- 可重构机器人系统的分布式控制系统
- 中文维基百科语料库百度网盘网址.
- zeroc ice 中文教程
- MSCNN_dehaze.rar
评论
共有 条评论