资源简介
利用python中的re和requests模块,实现对网站中的视频进行爬取,对于图片和文字的爬取也是同样的原理,重点是学会就网页html标签的正确正则就能获取到我们需要的数据,这里是用的单线程爬取
代码片段和文件信息
# -*- coding: cp936 -*-
import re
import requests
response=requests.get(“http://www.xiaohuar.com/v/“) #以下载校花网中的视频为例
print(response.status_code) #打开网页的响应状态码 若返回200-表示成功
print(response.content) #返回字节信息
print(response.text) #返回文本内容
#正则,匹配该网站中的视频播放页的页面地址
iter=re.finditer(r‘class=“items“.*?href=“(.*?)“‘response.text)
j=1;
for i in iter:
url=i.group(1)
print(url) #打印视频播放页的页面地址,用来观察正则是否正确
result=requests.get(url)
try:
#正则,匹配视频的下载地址
mp4_url=re.findall(r‘id=“media“.*?src=“(.*?)“‘result.textre.S)[0]
#获取视频的扩展名,是mp4就下载,不是mp4就不下载
相关资源
- python实现SGBM图像匹配算法
- python实现灰度直方图均衡化
- scrapy_qunar_one
- Python学习全系列教程永久可用
- python简明教程.chm
- 抽奖大转盘python的图形化界面
- 双边滤波器实验报告及代码python
- python +MYSQL+HTML实现21蛋糕网上商城
- Python-直播答题助手自动检测出题搜索
- OpenCV入门教程+OpenCV官方教程中文版
- Python 串口工具源码+.exe文件
- Python开发的全栈股票系统.zip
- Python操作Excel表格并将其中部分数据写
- python书籍 PDF
- 利用python绘制散点图
- python+labview+No1.vi
- 老男孩python项目实战
- python源码制作whl文件.rar
- python3.5可用的scipy
- PYTHON3 经典50案例.pptx
- 计算机科学导论-python.pdf
- python模拟鼠标点击屏幕
- windows鼠标自动点击py脚本
- 鱼c小甲鱼零基础学python全套课后题和
- Python 练习题100道
- Practical Programming 2nd Edition
- wxPython Application Development Cookbook
- python 3.6
- Python 3.5.2 中文文档 互联网唯一CHM版本
- python3.5.2.chm官方文档
评论
共有 条评论