• 大小: 1.76KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-01-30
  • 语言: Python
  • 标签: 数据  

资源简介

 

						  

资源截图

代码片段和文件信息

#!/usr/bin/python
# -*- coding: UTF-8 -*-


from bs4 import BeautifulSoup
import requests.exceptions
from urllib.parse import urlsplit
from collections import deque
import re

# 一个需要爬行的url队列
new_urls = deque([‘https://www.baidu.com/‘])

# 一组我们已经爬过的url
processed_urls = set()

emails = set()

# 一个一个地处理url,直到我们耗尽队列
while len(new_urls):

    # 将下一个url从队列移动到处理的url集合
    url = new_urls.popleft()
    processed_urls.add(url)

    # 提取基本url以解析相对链接
    parts = urlsplit(url)
    base_url = “{0.scheme}://{0.netloc}“.format(parts)
    path = url[:url.rfind(‘/‘)+1] if ‘/‘ in parts.path else url

    # 获取url的内容
    print(“Processing %s“ % url)
    try:
        response = requests.get(url)
    except (requests.exceptions.MissingSc

评论

共有 条评论