资源简介
利用python爬虫技术爬取豆瓣top250的信息并保存为excel文件
代码片段和文件信息
#-*- coding = utf-8 -*-
#@Time : 2020/12/23 8:34
#@File : spyder.py
#@Software: PyCharm
from bs4 import BeautifulSoup # 网页解析,获取数据
import re # 正则表达式,进行文字匹配
import urllib.requesturllib.error # 指定URL,获取网页数据
import xlwt # 进行excel操作
import sqlite3 # 进行SQLite数据库操作
def main():
baseurl = “https://movie.douban.com/top250?start=“
# 1.爬取网页
datalist = getData(baseurl)
savepath = “豆瓣电影.xls“
# 3.保存数据
saveData(datalistsavepath)
#askURL(“https://movie.douban.com/top250?start=“)
#影片详情链接的规则
findlink = re.compile(r‘‘) #创建正则表达式对象,表示规则(字符串的模式)
#影片图片
findImgSrc = re.compile(r‘ #影片片名
findtitle = re.compile(r‘tle“>(.*)‘)
#影片评分
findRating = re.compile(r‘(.*)‘)
#找到评价人数
findJudge = re.compile(r‘(\d*)人评价‘)
#找到概况
findInq = re.compile(r‘(.*)‘)
#找到影片的相关内容
findBd = re.compile(r‘(.*?)
‘re.S)
# 爬取网页
def getData(baseurl):
datalist = []
for i in range(010): #调用获取页面信息的函数 ,10次
url = baseurl + str(i*25)
html = askURL(url) #保存获取到的网页源码
# 2.逐一解析数据
soup = BeautifulSoup(html“html.parser“)
for item in soup.find_all(‘div‘class_=“item“): #查找符合要求的字符串,形成列表
#print(item) #测试:查看电影item全部信息
data = [] #保存一部电影的所有信息
item = str(item)
#影片详情的链接
link = re.findall(findlinkitem)[0] #re库用来通过正则表达式查找指定的字符串
data.append(link) #添加链接
imgSrc = re.findall(findImgSrcitem)[0]
data.append(imgSrc) #添加图片
titles = re.findall(findtitleitem) #片名可能只有一个中文名,没有外国名
if(len(titles) == 2):
ctitle = titles[0] #添加中文名
data.append(ctitle)
otitle = titles[1].replace(“/“““) #去掉无关的符号
data.append(otitle) #添加外国名
else:
data.append(titles[0])
data.append(‘ ‘) #外国名字留空
rating = re.findall(findRatingitem)[0]
data.append(rating) #添加评分
judgeNum = re.findall(findJudgeitem)[0]
data.append(judgeNum) #添加评价人数
inq = re.findall(findInqitem)
if len(inq) != 0:
inq = inq[0].replace(“。“““) #去掉句号
data.append(inq) # 添加概述
else:
data.append(“ “) #留空
bd = re.findall(findBditem)[0]
bd = re.sub(‘
(\s+)?‘“ “bd) #去掉
bd = re.sub(‘/‘“ “bd) #替换
data.a
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 5472 2020-12-30 23:54 python爬虫爬取豆瓣电影信息\spyder.py
文件 129024 2020-12-23 08:35 python爬虫爬取豆瓣电影信息\豆瓣电影Top250.xls
目录 0 2020-12-30 23:52 python爬虫爬取豆瓣电影信息\
相关资源
- python爬虫爬取旅游信息(附源码,c
- 爬取上百张妹子图源码可直接运行
- 视觉处理(test_shape.py)
- 网页视频并合并(2heiPage.py)
- 网页遥控小车 Python web (基于RPi.GPI
- 呼吸灯(IO.py)
- python 采集360的图片地址到文本文件
- Python简单小游戏 五子棋
- python基础题库(附答案).docx(共54页
- Python RC4算法
- 微信防撤回.py
- python实现的日历
- Python源代码:以web方式管理自己的常
- 电赛电磁炮.py
- 基于Python实现的简易画气球
- 画一朵可自定义的花.py
- python 井字棋 游戏源码
- xpath爬取豆瓣电影top250
- 《Python从小白到大牛》源代码
- 基于表面肌电的手势识别.py
- 查找两个路径中相同文件(get_same_f
- Python爬虫实战入门教程
- 70行代码实现贪吃蛇完整游戏功能
- 机器学习numpy和pandas基础
- Python 3 Web Development. Beginners Guide
- 贪吃蛇游戏.py
- 模拟自动滑块验证码.py(基于chromed
- 动物图片识别.py(基于百度api)
- Python爬取小说
- NumPy Cookbook
评论
共有 条评论