资源简介
1.2功能需求
明确任务:明确目的、确定思路
数据收集:网络爬虫、公开数据集、客户数据
数据处理:数据清洗、数据规整
数据分析:数据统计、探索性数据分析(EDA)、数据建模
结果展示:数据可视化、报表生成、结果保存
数据收集:获取歌单索引页、获取歌单详情页
数据处理:数据清洗、数据规整
数据分析统计:歌曲出现次数TOP10,歌单贡献UP主TOP10,歌曲播放量TOP10,歌单收藏量TOP10,歌单评论数TOP10
歌单收藏数量分布情况,单播放数量分布情况,歌单标签图,歌单介绍词云图
结果展示:可视化图表
二、项目分析与设计
2.1本项目需解决的关键技术问题
1.运用大数据分析技术对网站数据进行挖掘。
2.将挖掘到的数据输出到excel表格,并统一到一起进行整理。
3.对大量的数据基于Python进行技术分析,完成数据分析。
4.通过代码实现数据可视化,得出所需要的结论的图表形式。
2.2项目流程
1.基于Python语言,对网站数据进行爬取挖掘。
2.将数据整理到表格中。
3.对数据进行分析,并对数据进行统计处理,得到所需要的数据。
4.对数据进行计算处理,得到所需要的排名,占比等。
5.进行数据可视化,将得出的结论通过更直观的图表形式呈现。
明确任务:明确目的、确定思路
数据收集:网络爬虫、公开数据集、客户数据
数据处理:数据清洗、数据规整
数据分析:数据统计、探索性数据分析(EDA)、数据建模
结果展示:数据可视化、报表生成、结果保存
数据收集:获取歌单索引页、获取歌单详情页
数据处理:数据清洗、数据规整
数据分析统计:歌曲出现次数TOP10,歌单贡献UP主TOP10,歌曲播放量TOP10,歌单收藏量TOP10,歌单评论数TOP10
歌单收藏数量分布情况,单播放数量分布情况,歌单标签图,歌单介绍词云图
结果展示:可视化图表
二、项目分析与设计
2.1本项目需解决的关键技术问题
1.运用大数据分析技术对网站数据进行挖掘。
2.将挖掘到的数据输出到excel表格,并统一到一起进行整理。
3.对大量的数据基于Python进行技术分析,完成数据分析。
4.通过代码实现数据可视化,得出所需要的结论的图表形式。
2.2项目流程
1.基于Python语言,对网站数据进行爬取挖掘。
2.将数据整理到表格中。
3.对数据进行分析,并对数据进行统计处理,得到所需要的数据。
4.对数据进行计算处理,得到所需要的排名,占比等。
5.进行数据可视化,将得出的结论通过更直观的图表形式呈现。
代码片段和文件信息
import time
import requests
from bs4 import BeautifulSoup
headers = {
‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/63.0.3239.132 Safari/537.36‘
}
citys = [‘beijing‘ ‘shanghai‘ ‘guangzhou‘ ‘shenzhen‘]
for i in range(len(citys)):
time.sleep(5)
for j in range(1 13):
time.sleep(5)
url = ‘http://www.tianqihoubao.com/aqi/‘ + citys[i] + ‘-2018‘ + str(“%02d“ % j) + ‘.html‘
response = requests.get(url=url headers=headers)
soup = BeautifulSoup(response.text ‘html.parser‘)
tr = soup.find_all(‘tr‘)
for k in tr[1:]:
td = k.find_all(‘td‘)
Date = td[0].get_text().strip()
Quality_grade = td[1].get_text().strip()
AQI = td[2].get_text().strip()
AQI_rank = td[3].get_text().strip()
PM = td[4].get_text()
filename = ‘air_‘ + citys[i] + ‘_2018.csv‘
with open(filename ‘a+‘ encoding=‘utf-8-sig‘) as f:
f.write(Date + ‘‘ + Quality_grade + ‘‘ + AQI + ‘‘ + AQI_rank + ‘‘ + PM + ‘\n‘)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2019-03-29 11:25 大数据实训\
目录 0 2019-01-14 18:26 大数据实训\2018天气\
文件 1129 2019-01-14 18:26 大数据实训\2018天气\air_BSGS_2018.py
文件 1269 2019-01-14 18:26 大数据实训\2018天气\air_BSGS_2018_AQI_month.py
文件 1269 2019-01-14 18:26 大数据实训\2018天气\air_BSGS_2018_PM2.5_month.py
文件 1647 2019-01-14 18:26 大数据实训\2018天气\air_BSGS_2018_Quality_grade.py
文件 9130 2019-01-14 18:26 大数据实训\2018天气\air_beijing_2018.csv
文件 8299 2019-01-14 18:26 大数据实训\2018天气\air_guangzhou_2018.csv
文件 8456 2019-01-14 18:26 大数据实训\2018天气\air_shanghai_2018.csv
文件 8022 2019-01-14 18:26 大数据实训\2018天气\air_shenzhen_2018.csv
文件 10585 2019-01-14 18:26 大数据实训\2018天气\air_tianjin_2017.csv
文件 958 2019-01-14 18:26 大数据实训\2018天气\air_tianjin_2017.py
文件 538 2019-01-14 18:26 大数据实训\2018天气\air_tianjin_2017_AQI.py
文件 842 2019-01-14 18:26 大数据实训\2018天气\air_tianjin_2017_AQI_month.py
文件 895 2019-01-14 18:26 大数据实训\2018天气\air_tianjin_2017_AQI_season.py
文件 541 2019-01-14 18:26 大数据实训\2018天气\air_tianjin_2017_PM2.5.py
文件 986 2019-01-14 18:26 大数据实训\2018天气\air_tianjin_2017_PM2.5_heatmap.py
文件 842 2019-01-14 18:26 大数据实训\2018天气\air_tianjin_2017_PM2.5_month.py
文件 897 2019-01-14 18:26 大数据实训\2018天气\air_tianjin_2017_PM2.5_season.py
文件 729 2019-01-14 18:26 大数据实训\2018天气\air_tianjin_2017_Quality_grade.py
文件 9508100 2019-01-16 16:06 大数据实训\8000116338尹林英8000116344崔雪蕊.zip
文件 3255124 2019-01-16 11:32 大数据实训\8000116363-余岷蓉,8000116389-周佳玲.zip
文件 111954 2019-01-15 09:47 大数据实训\music.csv
文件 2418673 2019-01-15 09:47 大数据实训\music_message_3.csv
文件 510179 2019-01-15 09:47 大数据实训\music_message_4.csv
目录 0 2019-02-16 13:01 大数据实训\weixintuwen\
文件 143432 2019-02-16 12:55 大数据实训\weixintuwen\微信图片_20190216121058.jpg
文件 150776 2019-02-16 12:56 大数据实训\weixintuwen\微信图片_20190216121348.jpg
文件 57153 2019-02-16 12:57 大数据实训\weixintuwen\微信图片_20190216121353.jpg
文件 134978 2019-02-16 12:57 大数据实训\weixintuwen\微信图片_20190216121424.jpg
文件 135361 2019-02-16 12:57 大数据实训\weixintuwen\微信图片_20190216121439.jpg
............此处省略157个文件信息
评论
共有 条评论