• 大小: 39.87MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-07-29
  • 语言: Python
  • 标签: 资料作业  

资源简介

1.2功能需求
明确任务:明确目的、确定思路
数据收集:网络爬虫、公开数据集、客户数据
数据处理:数据清洗、数据规整
数据分析:数据统计、探索性数据分析(EDA)、数据建模
结果展示:数据可视化、报表生成、结果保存
数据收集:获取歌单索引页、获取歌单详情页
数据处理:数据清洗、数据规整
数据分析统计:歌曲出现次数TOP10,歌单贡献UP主TOP10,歌曲播放量TOP10,歌单收藏量TOP10,歌单评论数TOP10
歌单收藏数量分布情况,单播放数量分布情况,歌单标签图,歌单介绍词云图
结果展示:可视化图表
二、项目分析与设计
2.1本项目需解决的关键技术问题
1.运用大数据分析技术对网站数据进行挖掘。
2.将挖掘到的数据输出到excel表格,并统一到一起进行整理。
3.对大量的数据基于Python进行技术分析,完成数据分析。
4.通过代码实现数据可视化,得出所需要的结论的图表形式。
2.2项目流程
1.基于Python语言,对网站数据进行爬取挖掘。
2.将数据整理到表格中。
3.对数据进行分析,并对数据进行统计处理,得到所需要的数据。
4.对数据进行计算处理,得到所需要的排名,占比等。
5.进行数据可视化,将得出的结论通过更直观的图表形式呈现。

资源截图

代码片段和文件信息

import time
import requests
from bs4 import BeautifulSoup

headers = {
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/63.0.3239.132 Safari/537.36‘
}
citys = [‘beijing‘ ‘shanghai‘ ‘guangzhou‘ ‘shenzhen‘]
for i in range(len(citys)):
    time.sleep(5)
    for j in range(1 13):
        time.sleep(5)
        url = ‘http://www.tianqihoubao.com/aqi/‘ + citys[i] + ‘-2018‘ + str(“%02d“ % j) + ‘.html‘
        response = requests.get(url=url headers=headers)
        soup = BeautifulSoup(response.text ‘html.parser‘)
        tr = soup.find_all(‘tr‘)
        for k in tr[1:]:
            td = k.find_all(‘td‘)
            Date = td[0].get_text().strip()
            Quality_grade = td[1].get_text().strip()
            AQI = td[2].get_text().strip()
            AQI_rank = td[3].get_text().strip()
            PM = td[4].get_text()
            filename = ‘air_‘ + citys[i] + ‘_2018.csv‘
            with open(filename ‘a+‘ encoding=‘utf-8-sig‘) as f:
                f.write(Date + ‘‘ + Quality_grade + ‘‘ + AQI + ‘‘ + AQI_rank + ‘‘ + PM + ‘\n‘)

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2019-03-29 11:25  大数据实训\
     目录           0  2019-01-14 18:26  大数据实训\2018天气\
     文件        1129  2019-01-14 18:26  大数据实训\2018天气\air_BSGS_2018.py
     文件        1269  2019-01-14 18:26  大数据实训\2018天气\air_BSGS_2018_AQI_month.py
     文件        1269  2019-01-14 18:26  大数据实训\2018天气\air_BSGS_2018_PM2.5_month.py
     文件        1647  2019-01-14 18:26  大数据实训\2018天气\air_BSGS_2018_Quality_grade.py
     文件        9130  2019-01-14 18:26  大数据实训\2018天气\air_beijing_2018.csv
     文件        8299  2019-01-14 18:26  大数据实训\2018天气\air_guangzhou_2018.csv
     文件        8456  2019-01-14 18:26  大数据实训\2018天气\air_shanghai_2018.csv
     文件        8022  2019-01-14 18:26  大数据实训\2018天气\air_shenzhen_2018.csv
     文件       10585  2019-01-14 18:26  大数据实训\2018天气\air_tianjin_2017.csv
     文件         958  2019-01-14 18:26  大数据实训\2018天气\air_tianjin_2017.py
     文件         538  2019-01-14 18:26  大数据实训\2018天气\air_tianjin_2017_AQI.py
     文件         842  2019-01-14 18:26  大数据实训\2018天气\air_tianjin_2017_AQI_month.py
     文件         895  2019-01-14 18:26  大数据实训\2018天气\air_tianjin_2017_AQI_season.py
     文件         541  2019-01-14 18:26  大数据实训\2018天气\air_tianjin_2017_PM2.5.py
     文件         986  2019-01-14 18:26  大数据实训\2018天气\air_tianjin_2017_PM2.5_heatmap.py
     文件         842  2019-01-14 18:26  大数据实训\2018天气\air_tianjin_2017_PM2.5_month.py
     文件         897  2019-01-14 18:26  大数据实训\2018天气\air_tianjin_2017_PM2.5_season.py
     文件         729  2019-01-14 18:26  大数据实训\2018天气\air_tianjin_2017_Quality_grade.py
     文件     9508100  2019-01-16 16:06  大数据实训\8000116338尹林英8000116344崔雪蕊.zip
     文件     3255124  2019-01-16 11:32  大数据实训\8000116363-余岷蓉,8000116389-周佳玲.zip
     文件      111954  2019-01-15 09:47  大数据实训\music.csv
     文件     2418673  2019-01-15 09:47  大数据实训\music_message_3.csv
     文件      510179  2019-01-15 09:47  大数据实训\music_message_4.csv
     目录           0  2019-02-16 13:01  大数据实训\weixintuwen\
     文件      143432  2019-02-16 12:55  大数据实训\weixintuwen\微信图片_20190216121058.jpg
     文件      150776  2019-02-16 12:56  大数据实训\weixintuwen\微信图片_20190216121348.jpg
     文件       57153  2019-02-16 12:57  大数据实训\weixintuwen\微信图片_20190216121353.jpg
     文件      134978  2019-02-16 12:57  大数据实训\weixintuwen\微信图片_20190216121424.jpg
     文件      135361  2019-02-16 12:57  大数据实训\weixintuwen\微信图片_20190216121439.jpg
............此处省略157个文件信息

评论

共有 条评论

相关资源