• 大小: 0M
    文件类型: .py
    金币: 2
    下载: 1 次
    发布日期: 2021-06-18
  • 语言: Python
  • 标签: 其他  

资源简介

爬虫1.py

资源截图

代码片段和文件信息

#-*- coding: UTF-8 -*-

import urllib.request
from urllib import request
import re xlwt datetime


def function4():
    # file = urllib.request.urlopen(“http://www.baidun.com“timeout=1)
    # file = urllib.request.urlopen(“http://www.hellobi.com“timeout=0.5)
    for i in range(0100):
        try:
            file=urllib.request.urlopen(“http://yumiqianyue.com“timeout=1)#time是表示服务器的响应时间1s
            data=file.read()
            print(len(data))
        except Exception as e:
            print(“异常的原因:“+str(e))

def function3():
    html=“https://read.douban.com/provider/all“
    data=(urllib.request.urlopen(html).read())
    data=data.decode(‘utf-8‘)
    pat=‘(.*?)

    pat1=‘(.*?)

    mydata=re.compile(pat).findall(data)
    mydata1=re.compile(pat1).findall(data)

    “““写入文件.txt中“““
    dir=‘./爬虫练习1.txt‘
    with open(dir“w+“encoding=“utf-8“) as f:
        savedata =(‘,‘.join(mydata))+(‘‘.join(mydata1))
        f.write(savedata)
        f.close
    “““写入Excel文件中“““


def function2():
    urllib.request.urlretrieve(“http://www.youku.com/“filename=“./网页/数据挖掘实例网页.html“)#这是网页下载到本地文件中
    urllib.request.urlcleanup()#清理缓存
    file=urllib.request.urlopen(“http://www.hellobi.com“)
    print(“环境信息:“file.info())
    # getcode()状态编码
    # geturl()获取网页的例子
    print(file.getcode())
    print(file.geturl())


def function():

    “““官方实例“““
    html = request.urlopen(“https://read.douban.com/provider/all“).read()  # 读取网页源代码内容
    wzgz = “
(.*?)
(.*?) 部作品在售

    xx = re.compile(wzgz).findall(str(html “utf-8“))  # 通过正则表达式匹配在网页源代码中提取所需内容
    # print(xx)

    # 创建workbook和sheet对象
    workbook = xlwt.Workboo

评论

共有 条评论