资源简介
对上个爬虫代码的补充,主要用于武汉理工大学课表的爬取
代码片段和文件信息
#!/usr/bin/env python
# -*- coding:utf-8 -*-
#author:universtar
#time:18/4/12
from urllib import request
from urllib import parse
from bs4 import BeautifulSoup
import time
import re
#响应头信息
headers = {
‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/57.0.2987.98 Safari/537.36‘
}
#目标url
url = ‘http://sso.jwc.whut.edu.cn/Certification//login.do‘
#获取原网页返回的html
def get_html(urluserNamepassword):
#添加进入教务处的信息
data = {
‘systemId‘:‘‘
‘xmlmsg‘:‘‘
‘userName‘:userName
‘password‘:password
‘type‘:‘xs‘
}
#将信息格式编码为html格式
data = parse.urlencode(data).encode(‘utf-8‘)
#提交请求
req = request.Request(url=urlheaders=headersdata=data)
response = request.urlopen(req)
#获取网页html代码
html = response.read()
return html
#
def get_info(htmlresponse):
#获得soup对象
soup = BeautifulSoup(htmlresponse ‘html.parser‘ from_encoding=‘utf-8‘)
#从soup对象中截取到所要的信息
infos = soup.find_all(‘div‘style=“margin-top: 2px; font-size: 10px“)
相关资源
- py新浪微博爬虫通过修改最后的uid值即
- 高效爬取微博数据python3实现
- python3网络爬虫与开发实战崔庆才PDF百
- 基于Python专业网络爬虫的设计与实现
- 爬虫视频案例课程----崔庆财
- 微博关键字爬虫代码
- python爬取豆瓣每个账户对电影的评分
- 使用python对淘宝商品信息数据进行爬
- Python_百科爬虫
- python爬虫Scrapy(一)-我爬了boss数据
- 豆瓣电影信息Python爬虫存入MongoDB.一分
- Python爬虫文件:爬取图片的程序.py
- Python搜索爬虫抓取超高清视频
- 微博图片视频小爬虫
- 基于Python爬虫的股票信息爬取保存到
- Python简单网页爬虫
- Python爬虫每日抓取必应壁纸
- Python 3网络爬虫开发实战
- isbn查询书籍详细信息2.0
- 大批量图片爬虫工具可以自动上万张
- 利用爬虫获取IP的地理位置
- Python爬虫源码—爬取猫途鹰官方旅游
- 爬取瓜子二手车.py
- 用python实现一个百度百科的爬虫工具
- 问卷星爬虫带验证码
- python爬取亚马逊排名
- 知乎爬虫
- python端口扫描器图形化界面.zip
- Web Scraping with Python 爬虫2015 高清.pdf版
- python爬取百度搜索新闻,并自动生成
评论
共有 条评论