资源简介
代码片段和文件信息
from bs4 import BeautifulSoup #解析网页
import re #正则表达式,进行文字匹配
import urllib.requesturllib.error #制定url,获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQLite数据库操作
def main():
baseurl = “https://cy.ncss.cn/search/projects“
#爬取网页
datalist = getData(baseurl)
#保存数据
savepath = “50.xls“
saveData(datalistsavepath)
#电影链接
findlink = re.compile(r‘‘)
#封面图片
findImgSrc = re.compile(r‘‘re.S)
#电影名称
findtitle = re.compile(r‘tle“>(.*)‘)
#评分
findRating = re.compile(r‘(.*)‘)
#评价人数
findJudge = re.compile(r‘(\d*)人评价‘)
#概况
findInq = re.compile(r‘(.*)‘)
#电影详细内容
findBd = re.compile(r‘(.*?)
‘re.S)
#爬取网页
def getData(baseurl):
datalist = []
for i in range(010):
url = baseurl + str(i*25)
html = askURL(url)
#逐一解析数据
soup = BeautifulSoup(html“html.parser“)
for item in soup.find_all(‘div‘class_=“item“):
#print(item)
data = []
item = str(item)
link = re.findall(findlinkitem)[0]
data.append(link)
ImgSrc = re.findall(findImgSrcitem)[0]
data.append(ImgSrc)
title = re.findall(findtitleitem)
if len(title)==2:
ctitle = title[0]
data.append(ctitle)
otitle = title[1].replace(“/“““)
data.append(otitle)
else:
data.append(title[0])
data.append(‘ ‘)
Rating = re.findall(f
相关资源
- 百度图片爬虫(python版)
- python爬取小说59868
- 彼岸花网壁纸爬虫
- Python列表常用知识总结
- Python 爬虫小说.ipynb
- 爬虫爬取网易云音乐
- 北邮python爬虫学堂在线
- python简单爬虫
- 爬取58同城二手房信息.py
- 量子计算与量子信息
- 知网爬虫软件(python)
- python爬虫爬取微博热搜
- python爬虫爬取旅游信息(附源码,c
- python爬虫爬取豆瓣电影信息
- 爬取上百张妹子图源码可直接运行
- Python爬虫实战入门教程
- 网络爬虫(pachong_anjuke.py)
- Python-京东抢购助手包含登录查询商品
- python网络爬虫获取景点信息源码
- python爬取维基百科程序语言消息盒(
- python新浪微博爬虫
- 12306爬虫实现
- 中国裁判文书网爬虫
- Python爬虫相关书籍.zip
- 豆瓣电影排行爬虫
- 疫情数据爬虫并绘制柱状图.py
- python新浪微博爬虫,爬取微博和用户
- Python数据爬虫及可视化分析
- 一套最新价值1680元的python爬虫实战全
- 测试工程师相关学习视频(包含pyth
评论
共有 条评论