python 爬取网址数据

大小: 1.76KB

文件类型: .py

金币: 1

下载: 0 次

发布日期: 2021-01-30
语言: Python
标签: 数据

高速下载

资源简介

资源截图

小图大图

代码片段和文件信息

#!/usr/bin/python
# -*- coding: UTF-8 -*-


from bs4 import BeautifulSoup
import requests.exceptions
from urllib.parse import urlsplit
from collections import deque
import re

# 一个需要爬行的url队列
new_urls = deque（[‘https://www.baidu.com/‘]）

# 一组我们已经爬过的url
processed_urls = set（）

emails = set（）

# 一个一个地处理url，直到我们耗尽队列
while len（new_urls）:

    # 将下一个url从队列移动到处理的url集合
    url = new_urls.popleft（）
    processed_urls.add（url）

    # 提取基本url以解析相对链接
    parts = urlsplit（url）
    base_url = “{0.scheme}://{0.netloc}“.format（parts）
    path = url[:url.rfind（‘/‘）+1] if ‘/‘ in parts.path else url

    # 获取url的内容
    print（“Processing %s“ % url）
    try:
        response = requests.get（url）
    except （requests.exceptions.MissingSc

共有条评论

python 爬取网址数据

资源简介

资源截图

代码片段和文件信息

评论

相关资源