资源简介
1.从一个给定的网址中分析其所包含的 URL 并爬取对应的网页,直到爬取完全部
不重复的网页为止。
2.支持分布式爬取,同时记录输出每一个网页的大小。
3.采用多线程结构设计,实现高性能的网络爬虫。
代码片段和文件信息
from workers import app
url=‘http://www.csu.edu.cn/‘
if __name__ == ‘__main__‘:
app.send_task(‘task.thread_crawling‘ args=(url))
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2018-12-17 20:45 实验三\
目录 0 2018-12-26 16:21 实验三\.idea\
文件 201 2018-12-09 04:09 实验三\.idea\misc.xm
文件 270 2018-12-09 04:03 实验三\.idea\modules.xm
文件 29367 2018-12-26 16:21 实验三\.idea\workspace.xm
文件 515 2018-12-09 04:09 实验三\.idea\实验三.iml
文件 141 2018-12-16 16:20 实验三\exec_crawling.py
文件 2564 2018-12-16 16:26 实验三\task.py
目录 0 2018-12-09 05:57 实验三\venv\
目录 0 2018-12-09 04:03 实验三\venv\Include\
目录 0 2018-12-09 04:03 实验三\venv\Lib\
目录 0 2018-12-09 04:05 实验三\venv\Lib\site-packages\
目录 0 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\
目录 0 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp-2.3.2.dist-info\
文件 4 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp-2.3.2.dist-info\INSTALLER
文件 2372 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp-2.3.2.dist-info\LICENSE.txt
文件 6052 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp-2.3.2.dist-info\me
文件 2263 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp-2.3.2.dist-info\RECORD
文件 5 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp-2.3.2.dist-info\top_level.txt
文件 110 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp-2.3.2.dist-info\WHEEL
文件 4160 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\abstract_channel.py
文件 3330 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\basic_message.py
文件 71260 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\channel.py
文件 25749 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\connection.py
文件 7164 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\exceptions.py
文件 178 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\five.py
文件 5985 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\method_framing.py
文件 2409 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\platform.py
文件 348 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\protocol.py
文件 5758 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\sasl.py
文件 17257 2018-12-09 04:05 实验三\venv\Lib\site-packages\amqp\serialization.py
............此处省略1610个文件信息
相关资源
- ZooKeeper-分布式过程协同技术详解完整
- 自动爬取百度谷歌图片
- mozilla-geckodriver-v0.19.1-win64
- 大数据•互联网大规模数据挖掘与分
- 基于社交网络的情绪化分析
- 淘宝数据挖掘和数据分析
- 《城市公交站点设置的优化分析》项
- 智联招聘爬虫
- PyQt5类继承图
- 基于RS-485的分布式多总线通信系统设
- keras程序
- Mastering Machine Learning With Scikit-learn S
- 2019年华中杯B题数学建模数据处理
- 微信公众号文章器
- Distributed Systems Concepts and Design(5th
- 豆瓣电影分析代码
- Ceph分布式存储实战高清最新版
- pywin32-220.win-amd64-py3.6.exe
- Ceph 分布式存储实战(高清带目录完全
- 爬虫+分词+Word2vec向量化的实现.zip
- 电子科技大学分布式系统20172018年期末
- 妹子图爬虫批量妹子图.rar
- Sublime Text 3绿色破解版
- 微软官方推荐.NET平台的爬虫软件,
- scrapy爬虫完整案例.zip
- 易语言爬虫源码
- Streaming Systems - Tyler Akidau
- torchvision-0.7.0-py37_cu102.tar.bz2
- 区块链与分布式记账信息系统评估规
- 分布式系统中文版PPT-南理工复习可用
评论
共有 条评论