资源简介
Python爬虫的代码示例,包括表单提交、爬取子网页等等
代码片段和文件信息
# -*- coding: utf-8 -*-
“““
@author: Administrator
“““
import urllib
import requests
import re
import pandas as pd
import numpy as np
import ssl
import warnings
warnings.filterwarnings(“ignore“)
base_url = ‘https://umbraco.tv‘
if __name__==‘__main__‘:
#第一步:完成登录
url = ‘https://umbraco.tv/login/‘
resp = requests.get(url verify=False allow_redirects=False)
headers = {
‘Content-type‘:‘application/x-www-form-urlencoded‘
‘Cookie‘:resp.headers[‘set-cookie‘]
}
formdata=resp.content
#从formdata中提取两个变量的值__RequestVerificationTokenufprt并把值放到postdata里
reqToken = re.findall(r‘‘formdatare.S|re.M)[0]
ufprt = re.findall(r‘‘formdatare.S|re.M)[0]
data = { ‘__RequestVerificationToken‘:reqToken
‘Username‘:‘haierol@qq.com‘
‘Password‘:‘EEjnMYL3‘
‘ReturnUrl‘:‘‘
‘ufprt‘:ufprt
}
#这里才是真正的登陆过程,data里面是抓包获取的账号密码及其他信息。
resp = requests.post(url urllib.urlencode(data)
headers=headers
verify=False
allow_redirects=False)
headers = {‘Cookie‘:resp.headers[‘set-cookie‘]}
url1=‘https://umbraco.tv/videos/umbraco-v7/developer/fundamentals/api-controllers/introduction/‘
resp1 = requests.get(url1headers=headersverify=Falseallow_redirects=False)
t=resp1.content #这时应该可以取到这个需要登录的页面里的mp4信息了
#第二步:爬所有链接的子网页
mp4_list = []
access_list = []
#爬5层
index_url = ‘https://umbraco.tv/videos/‘
i_linklist = [re.findall(r‘ href=“(.{1100}?)“‘urllib.urlopen(index_url).read()re.S|re.M)]
i = 0
all_links = []
while i<10:
l = i_linklist[i] #第i层所有link
new_l = []
for link in l:
if link.startswith(‘href=‘):
link = link[6:-1]
#过滤.png .css ...
if not ((‘http://‘ in link) or (‘https://‘ in link) or (‘.png‘ in link) or (‘.css‘ in link) or (‘.js‘ in link) or (‘.ico‘ in link)):
print (link)
if base_url + link
相关资源
- Python快速编程入门的课后习题答案(
- 搜集和整理的100道Python考试题.docx
- 手写体数字识别原始数据和贝叶斯代
- Python环境下利用matplotlib绘制发动机万
- 基于Python+Theano实现的Lenet5源代码(附
- Python 中文手册.chm
- python实现类似QQ群聊
- 淘宝秒杀python脚本
-
python 从xm
l文件中提取有用信息转 - 淘宝网页数据爬虫
- REAPER的脚本程序汇总
- ABAQUS 二次开发Python教程
- python学习之路 精
- DBN Python预测交通流
- 43个Python代码打包
- 用A*算法解决TSP问题
- 大作业2 –路由协议Python
- 《Python3网络爬虫开发实战》中文PDF
- Python教学大纲.rar
- k-means python实现及数据.zip
- 模拟退火-遗传算法 34省会城市TSP问题
- python题库112732
- 基于Mnist数据集的贝叶斯分类器
- python 实现股票分时图K线图及抓取免费
- textrank自动文摘抽取python代码
- arcpy 工具包
- pyexcelerator
- PYTHON题库
- 利用selenium编写的python网络爬虫-淘宝
- 人脸检测python源代码
评论
共有 条评论