资源简介
代码片段和文件信息
#!/usr/bin/python
# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup
import requests.exceptions
from urllib.parse import urlsplit
from collections import deque
import re
# 一个需要爬行的url队列
new_urls = deque([‘https://www.baidu.com/‘])
# 一组我们已经爬过的url
processed_urls = set()
emails = set()
# 一个一个地处理url,直到我们耗尽队列
while len(new_urls):
# 将下一个url从队列移动到处理的url集合
url = new_urls.popleft()
processed_urls.add(url)
# 提取基本url以解析相对链接
parts = urlsplit(url)
base_url = “{0.scheme}://{0.netloc}“.format(parts)
path = url[:url.rfind(‘/‘)+1] if ‘/‘ in parts.path else url
# 获取url的内容
print(“Processing %s“ % url)
try:
response = requests.get(url)
except (requests.exceptions.MissingSc
- 上一篇:Python贪吃蛇游戏
- 下一篇:scrapy抓取安居客数据
相关资源
- 从图像数据集读取图片并拼接成大图
- Python 数据结构入门 - 二叉搜索树(
- python数据分析与处理
- excel数据比对小工具
- KNN算法的Python实现(datingrecd.ipynb)
- python爬取接口json数据,并显示在Pre
- pyqt5图书管理系统源码+安装说明+数据
- 基于MTCNN实现制作脸部VOC格式数据集
- 《用python写网络爬虫》pdf
- 《大数据与机器学习:实践方法与行
- python3爬虫采集淘宝商品数据
- python 淘宝爬虫抓取天猫数据
- scrapy抓取安居客数据
- python 简单的会议室预定系统源码(
- python操作mysql数据库入门级(增删改查
- knn最近邻算法与数据集
- HTML5物流大数据服务平台后台模板
- 从Excel到Python——数据分析进阶指南
- python手写数字识别包含minist数据集
- Python网络数据采集 2017 第二版.pdf
- 《python数据分析与应用》实训代码.
- Python科学计算最佳实践——SciPy指南(
- python 数据分析与可视化
- Python基于Django图书管理系统源码(含
- 基于Django2、echarts的爬取智联招聘信息
- python根据历史数据,预测未来数据
- python爬取贝壳网小区数据
- 零起点python大数据与量化交易.pdf
- python爬虫(爬取新浪微博数据)
- 股票预测 LSTM 时间序列rnn 代码程序数
评论
共有 条评论