爬虫1.py

大小: 0M

文件类型: .py

金币: 1

下载: 1 次

发布日期: 2021-06-18
语言: Python
标签: 其他

高速下载

资源简介

爬虫1.py

资源截图

小图大图

代码片段和文件信息

#-*- coding: UTF-8 -*-

import urllib.request
from urllib import request
import re xlwt datetime


def function4（）:
    # file = urllib.request.urlopen（“http://www.baidun.com“timeout=1）
    # file = urllib.request.urlopen（“http://www.hellobi.com“timeout=0.5）
    for i in range（0100）:
        try:
            file=urllib.request.urlopen（“http://yumiqianyue.com“timeout=1）#time是表示服务器的响应时间1s
            data=file.read（）
            print（len（data））
        except Exception as e:
            print（“异常的原因：“+str（e））

def function3（）:
    html=“https://read.douban.com/provider/all“
    data=（urllib.request.urlopen（html）.read（））
    data=data.decode（‘utf-8‘）
    pat=‘（.*?）

‘
    pat1=‘（.*?）

‘
    mydata=re.compile（pat）.findall（data）
    mydata1=re.compile（pat1）.findall（data）

    “““写入文件.txt中“““
    dir=‘./爬虫练习1.txt‘
    with open（dir“w+“encoding=“utf-8“） as f:
        savedata =（‘，‘.join（mydata））+（‘‘.join（mydata1））
        f.write（savedata）
        f.close
    “““写入Excel文件中“““


def function2（）:
    urllib.request.urlretrieve（“http://www.youku.com/“filename=“./网页/数据挖掘实例网页.html“）#这是网页下载到本地文件中
    urllib.request.urlcleanup（）#清理缓存
    file=urllib.request.urlopen（“http://www.hellobi.com“）
    print（“环境信息：“file.info（））
    # getcode（）状态编码
    # geturl（）获取网页的例子
    print（file.getcode（））
    print（file.geturl（））


def function（）:

    “““官方实例“““
    html = request.urlopen（“https://read.douban.com/provider/all“）.read（）  # 读取网页源代码内容
    wzgz = “

（.*?）

（.*?）部作品在售

“
    xx = re.compile（wzgz）.findall（str（html “utf-8“））  # 通过正则表达式匹配在网页源代码中提取所需内容
    # print（xx）

    # 创建workbook和sheet对象
    workbook = xlwt.Workboo

上一篇：用Python实现域用户与企业微信通讯录同步
下一篇：运动物体的检测和识别

共有条评论

爬虫1.py

资源简介

资源截图

代码片段和文件信息

评论

相关资源