资源简介
利用python爬虫对豆瓣和IMDB上的电影评价信息,并且最终通过图像可视化将IMDB250和豆瓣250的电影进行了比较,大致可以看出两个平台用户的电影审美水平
代码片段和文件信息
import urllib.request
import requests
import matplotlib.pyplot as plt
from bs4 import BeautifulSoup
def readhtml(url):#url转换为html格式
head={}
data={}
head[‘User-Agent‘]=“Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; Acoo Browser 1.98.744; .NET CLR 3.5.30729)“
req=urllib.request.Request(urldatahead)
response=urllib.request.urlopen(req)
html=response.read()
html=html.decode(‘utf-8‘)
return html
def analizeimdb(htmlimdbmovieimdbrating):#imdb的数据解析以及文件读入
imdb=[]
soup=BeautifulSoup(html“html.parser“);
datas=soup.find_all(“tr“);
for data in datas:
x=data.find_all(“td“class_=“titleColumn“);
if len(x)==0:
continue;
blist=[];
for y in x:
blist.append(y.get_text());
imdbmovie.append(blist);
for data in datas:
x=data.find_all(“td“class_=“ratingColumn imdbRating“);
if len(x)==0:
continue;
blist=[];
for y in x:
blist.append(y.get_text());
imdbrating.append(blist);
for i in range(250):
x=imdbmovie[i];
y=imdbrating[i];
s=x[0]+y[0]+“\n“;
imdb.append(s);
file=open(r“C:\Users\Administrator\Desktop\3.csv““w“encoding=‘utf-8‘);
file.writelines(imdb);
file.close();
def analizedou(htmldoumoviedourating):#豆瓣的数据解析以及文件读入
douban=[];
soup=BeautifulSoup(html“html.parser“);
datas=soup.find_all(“li“);
for data in datas:
x=data.find_all(“span“class_=“title“);
if len(x)==0:
continue;
blist=[];
for y in x:
blist.append(y.get_text());
doumovie.append(blist);
for data in datas:
x=data.find_all(“span“class_=“rating_num“);
if len(x)==0:
continue;
blist=[];
for y in x:
blist.append(y.get_text());
dourating.append(blist);
for i in range(250):
x=doumovie[i];
y=dourating[i]
s=str(i+1)+“\t“+x[0]+‘\t‘+try_(x)+‘\t‘+y[0]+“\n“;
douban.append(s);
file=open(r“C:\Users\Administrator\Desktop\4.txt““w“encoding=‘utf-8‘)
file.writelines(douban);
file.close();
def try_(x):#处理豆瓣中有些电影名称不存在外文的情况
try:
if x[1] in x:
return x[1];
except:
return “ /N“;
def douban(doumoviedourating):
htmldatas=““;
for i in range(10):
url=“https://movie.douban.com/top250?start=“+str(25*i)+“&filter=“;
html=readhtml(url);
htmldatas=htmldatas
- 上一篇:masscan-python接口
- 下一篇:BMP图片的LSB算法实现隐写
相关资源
- Python-京东抢购助手包含登录查询商品
- python网络爬虫获取景点信息源码
- python爬取维基百科程序语言消息盒(
- python新浪微博爬虫
- 12306爬虫实现
- 中国裁判文书网爬虫
- Python爬虫相关书籍.zip
- 豆瓣电影排行爬虫
- 疫情数据爬虫并绘制柱状图.py
- python新浪微博爬虫,爬取微博和用户
- Python数据爬虫及可视化分析
- 一套最新价值1680元的python爬虫实战全
- 测试工程师相关学习视频(包含pyth
- 11-Python爬虫工程师-App抓取进阶
- 基于10000网页python搭建搜索引擎课程设
- 法律判决文书python爬虫、以及数据处
- python新浪微博爬虫,爬取微博和用户
- Python网络爬虫实战.epub
- Python爬虫、Flask框架与ECharts实现数据
- Python爬虫入门到实战 (二花) PDF版
- python网络爬虫爬取整个网页
- Python-利用Python图虫网摄影作品
- ScrapyMySQL爬取链家网中北京地区租房信
- 学习python爬虫看一篇就足够了之爬取
- python3爬虫
- Python项目案例开发从入门到实战源代
- 基于Python的网络爬虫系统的设计与实
- 基于Python的分布式网络爬虫系统的设
- 爬取优酷电影代码
- 基于Python网络爬虫毕业论文.doc
评论
共有 条评论