资源简介
python爬虫初级学习,爬取豆瓣top250电影信息
代码片段和文件信息
import re
import requests
from bs4 import BeautifulSoup
def get_content(url ):
try:
#浏览器标识
user_agent = “Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/59.0.3071.109 Safari/537.36“
response = requests.get(url headers={‘User-Agent‘: user_agent})
response.raise_for_status() # 如果返回的状态码不是200, 则抛出异常; 不是200代表错误
response.encoding = response.apparent_encoding # 判断网页的编码格式, 便于respons.text知道如何解码;
except Exception as e:
print(“爬取错误“)
else:
print(response.url)
print(“爬取成功!“)
return response.content
def parser_content(htmlContent):
# 实例化soup对象, 便于处理;
soup = BeautifulSoup(htmlContent ‘html.parser‘)
# 1). 电影信息存储在ol标签里面的li标签:
#
olObj = soup.find_all(‘ol‘ class_=‘grid_view‘)[0]
# 2). 获取每个电影的详细信息 存储在li标签;
details = olObj.find_all(‘li‘)
for detail in details:
# 3). 获取电影名称;
movi
- 上一篇:FastAPI入门级
- 下一篇:从图像数据集读取图片并拼接成大图
相关资源
- python实现SGBM图像匹配算法
- python实现灰度直方图均衡化
- scrapy_qunar_one
- Python学习全系列教程永久可用
- python简明教程.chm
- 抽奖大转盘python的图形化界面
- 双边滤波器实验报告及代码python
- python +MYSQL+HTML实现21蛋糕网上商城
- Python-直播答题助手自动检测出题搜索
- OpenCV入门教程+OpenCV官方教程中文版
- Python 串口工具源码+.exe文件
- Python开发的全栈股票系统.zip
- Python操作Excel表格并将其中部分数据写
- python书籍 PDF
- 利用python绘制散点图
- python+labview+No1.vi
- 老男孩python项目实战
- python源码制作whl文件.rar
- python3.5可用的scipy
- PYTHON3 经典50案例.pptx
- 计算机科学导论-python.pdf
- python模拟鼠标点击屏幕
- windows鼠标自动点击py脚本
- 鱼c小甲鱼零基础学python全套课后题和
- Python 练习题100道
- Practical Programming 2nd Edition
- wxPython Application Development Cookbook
- python 3.6
- Python 3.5.2 中文文档 互联网唯一CHM版本
- python3.5.2.chm官方文档
评论
共有 条评论