资源简介
这个项目源于大三某课程设计。平常经常需要搜索一些电影,但是不知道哪些评分高且评价人数多的电影。为了方便使用,就将原来的项目重新改写了。当做是对爬虫技术、可视化技术的实践了。主要是通过从排行榜和从影片关键词两种方式爬取电影数据。
代码片段和文件信息
# -*- coding:utf-8 -*-
from ssl import _create_unverified_context
from json import loads
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import tkinter.messagebox
import urllib.request
import urllib.parse
movieData = ‘ [‘ \
‘{“title“:“纪录片“ “type“:“1“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“传记“ “type“:“2“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“犯罪“ “type“:“3“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“历史“ “type“:“4“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“动作“ “type“:“5“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“情色“ “type“:“6“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“歌舞“ “type“:“7“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“儿童“ “type“:“8“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“悬疑“ “type“:“10“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“剧情“ “type“:“11“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“灾难“ “type“:“12“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“爱情“ “type“:“13“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“音乐“ “type“:“14“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“冒险“ “type“:“15“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“奇幻“ “type“:“16“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“科幻“ “type“:“17“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“运动“ “type“:“18“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“惊悚“ “type“:“19“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“恐怖“ “type“:“20“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“战争“ “type“:“22“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“短片“ “type“:“23“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“喜剧“ “type“:“24“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“动画“ “type“:“25“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“同性“ “type“:“26“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“西部“ “type“:“27“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“家庭“ “type“:“28“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“武侠“ “type“:“29“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“古装“ “type“:“30“ “interval_id“:“100:90“} ‘ \
‘ {“title“:“黑色电影“ “type“:“31“ “interval_id“:“100:90“}‘ \
‘]‘
class getMovieInRankingList:
# typeId 电影类型 movie_count 欲获取的该电影类型的数量 rating 电影的评分 vote_count 电影的评价人数
def __init__(self):
chrome_options = Options()
chrome_options.add_argument(‘--headless‘) # 设置为无头模式,即不显示浏览器
chrome_options.add_argument(
‘user-agent=“Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML like Gecko) Chrome/72.0.3626.121 Safari/537.36“‘) # 设置user=agent
chrome_options.add_experimental_option(‘excludeSwitches‘
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
....... 356782 2019-03-19 14:14 6.爬取豆瓣排行榜电影数据(含GUI界面版)\example_keyword.png
....... 341402 2019-03-19 14:14 6.爬取豆瓣排行榜电影数据(含GUI界面版)\example_rating.png
....... 8282 2019-03-19 14:14 6.爬取豆瓣排行榜电影数据(含GUI界面版)\getMovieInRankingList.py
....... 136 2019-03-19 14:14 6.爬取豆瓣排行榜电影数据(含GUI界面版)\main.py
文件 1713 2019-03-19 14:14 6.爬取豆瓣排行榜电影数据(含GUI界面版)\README.md
....... 37423 2019-03-19 14:14 6.爬取豆瓣排行榜电影数据(含GUI界面版)\uiob
....... 14976085 2019-03-19 14:14 6.爬取豆瓣排行榜电影数据(含GUI界面版)\[成品]豆瓣电影小助手(可筛选、下载自定义电影).zip
....... 0 2019-03-19 14:14 6.爬取豆瓣排行榜电影数据(含GUI界面版)\__init__.py
目录 0 2019-03-19 14:14 6.爬取豆瓣排行榜电影数据(含GUI界面版)
----------- --------- ---------- ----- ----
15721823 9
相关资源
- 字典文本资源
- Brainfuck / OoK 解码脚本
- 案例实战信用卡欺诈检测数据集
- 招商策略_抱团启示录那些年我们一起
- sip-4.19.zip
- 树莓派3b+学习使用教程
- numpy 中文学习手册
- pytorch-1.4.0-py3.7_cpu_0.tar.bz2
- 机器学习实战 高清完整版PDF
- 泰坦尼克号0.81准确率实验报告.docx
-
abaqus sc
ripting reference manual.pdf - 网页版聊天程序--网络程序设计课程大
- Give Me Some Credit
-
ba
semap安装出错时,正确得pyproj文件 - 微信头像拼接工具
- 统计思维:程序员数学之概率统计第
- 基于open cv的人脸识别
- Django web 开发中文 完整版本
- 影视领域可视化数据挖掘综述
- pyexiv2安装包
- dlib-19.4.0-cp35.whl Windows64位 不用boos
- PySpark Recipes-A Problem-Solution Approach wi
- 拆分CSV文件.zip
- 文本爬取和分词预处理.pdf
- Matplotlib中文手册.pdf
- 详细的openmv教程
- 项目:电商打折套路解析.zip
- PyQt5编写的大数据应用-高速公路违章
- numpy-1.15.0-cp37-none-win32
- odoo12开发手册
评论
共有 条评论