• 大小: 14.95MB
    文件类型: .rar
    金币: 2
    下载: 0 次
    发布日期: 2024-02-03
  • 语言: 其他
  • 标签: Python  

资源简介

这个项目源于大三某课程设计。平常经常需要搜索一些电影,但是不知道哪些评分高且评价人数多的电影。为了方便使用,就将原来的项目重新改写了。当做是对爬虫技术、可视化技术的实践了。主要是通过从排行榜和从影片关键词两种方式爬取电影数据。

资源截图

代码片段和文件信息

# -*- coding:utf-8 -*-
from ssl import _create_unverified_context
from json import loads
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import tkinter.messagebox

import urllib.request
import urllib.parse

movieData = ‘ [‘ \
            ‘{“title“:“纪录片“ “type“:“1“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“传记“ “type“:“2“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“犯罪“ “type“:“3“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“历史“ “type“:“4“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“动作“ “type“:“5“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“情色“ “type“:“6“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“歌舞“ “type“:“7“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“儿童“ “type“:“8“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“悬疑“ “type“:“10“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“剧情“ “type“:“11“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“灾难“ “type“:“12“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“爱情“ “type“:“13“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“音乐“ “type“:“14“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“冒险“ “type“:“15“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“奇幻“ “type“:“16“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“科幻“ “type“:“17“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“运动“ “type“:“18“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“惊悚“ “type“:“19“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“恐怖“ “type“:“20“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“战争“ “type“:“22“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“短片“ “type“:“23“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“喜剧“ “type“:“24“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“动画“ “type“:“25“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“同性“ “type“:“26“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“西部“ “type“:“27“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“家庭“ “type“:“28“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“武侠“ “type“:“29“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“古装“ “type“:“30“ “interval_id“:“100:90“} ‘ \
            ‘ {“title“:“黑色电影“ “type“:“31“ “interval_id“:“100:90“}‘ \
            ‘]‘


class getMovieInRankingList:

    # typeId 电影类型 movie_count 欲获取的该电影类型的数量 rating 电影的评分 vote_count 电影的评价人数
    def __init__(self):
        chrome_options = Options()
        chrome_options.add_argument(‘--headless‘)  # 设置为无头模式,即不显示浏览器
        chrome_options.add_argument(
            ‘user-agent=“Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML like Gecko) Chrome/72.0.3626.121 Safari/537.36“‘)  # 设置user=agent
        chrome_options.add_experimental_option(‘excludeSwitches‘

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

    .......    356782  2019-03-19 14:14  6.爬取豆瓣排行榜电影数据(含GUI界面版)\example_keyword.png

    .......    341402  2019-03-19 14:14  6.爬取豆瓣排行榜电影数据(含GUI界面版)\example_rating.png

    .......      8282  2019-03-19 14:14  6.爬取豆瓣排行榜电影数据(含GUI界面版)\getMovieInRankingList.py

    .......       136  2019-03-19 14:14  6.爬取豆瓣排行榜电影数据(含GUI界面版)\main.py

     文件       1713  2019-03-19 14:14  6.爬取豆瓣排行榜电影数据(含GUI界面版)\README.md

    .......     37423  2019-03-19 14:14  6.爬取豆瓣排行榜电影数据(含GUI界面版)\uiobject.py

    .......  14976085  2019-03-19 14:14  6.爬取豆瓣排行榜电影数据(含GUI界面版)\[成品]豆瓣电影小助手(可筛选、下载自定义电影).zip

    .......         0  2019-03-19 14:14  6.爬取豆瓣排行榜电影数据(含GUI界面版)\__init__.py

     目录          0  2019-03-19 14:14  6.爬取豆瓣排行榜电影数据(含GUI界面版)

----------- ---------  ---------- -----  ----

             15721823                    9


评论

共有 条评论