资源简介

航空公司客户价值大数据分析全部的源代码,使用python编写,含数据部分

资源截图

代码片段和文件信息

#-*- coding: utf-8 -*- 
#对数据进行基本的探索
#返回缺失值个数以及最大最小值

import pandas as pd

datafile= ‘../data/air_data.csv‘ #航空原始数据第一行为属性标签
resultfile = ‘../tmp/explore.xls‘ #数据探索结果表

data = pd.read_csv(datafile encoding = ‘utf-8‘) #读取原始数据,指定UTF-8编码(需要用文本编辑器将数据装换为UTF-8编码)

explore = data.describe(percentiles = [] include = ‘all‘).T #包括对数据的基本描述,percentiles参数是指定计算多少的分位数表(如1/4分位数、中位数等);T是转置,转置后更方便查阅
explore[‘null‘] = len(data)-explore[‘count‘] #describe()函数自动计算非空值数,需要手动计算空值数

explore = explore[[‘null‘ ‘max‘ ‘min‘]]
explore.columns = [u‘空值数‘ u‘最大值‘ u‘最小值‘] #表头重命名
‘‘‘这里只选取部分探索结果。
describe()函数自动计算的字段有count(非空值数)、unique(唯一值数)、top(频数最高者)、freq(最高频数)、mean(平均值)、std(方差)、min(最小值)、50%(中位数)、max(最大值)‘‘‘

explore.to_excel(resultfile) #导出结果

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件       1221  2018-07-29 17:49  chapter7\demo\code\7-1_data_explore.py

     文件        849  2018-07-29 17:49  chapter7\demo\code\7-2_data_clean.py

     文件        555  2018-07-29 17:49  chapter7\demo\code\7-3_zscore_data.py

     文件        606  2018-07-29 17:49  chapter7\demo\code\7-4_KMeans_cluster.py

     文件   14478308  2018-07-29 18:18  chapter7\demo\data\air_data.csv

     文件    4203008  2018-07-29 18:18  chapter7\demo\data\zscoredata.xls

     文件    6883328  2018-07-29 18:18  chapter7\demo\data\zscoreddata.xls

     文件      29696  2018-07-29 17:49  chapter7\demo\data\客户信息属性说明.xls

     文件       9728  2018-07-29 17:49  chapter7\demo\tmp\explore.xls

     文件    6883328  2018-07-29 18:18  chapter7\demo\tmp\zscoreddata.xls

     文件        877  2018-07-29 17:49  chapter7\test\code\cluster_plot.py

     文件        849  2018-07-29 17:49  chapter7\test\code\data_clean.py

     文件       1221  2018-07-29 17:49  chapter7\test\code\data_explore.py

     文件        606  2018-07-29 17:49  chapter7\test\code\KMeans_cluster.py

     文件        555  2018-07-29 17:49  chapter7\test\code\zscore_data.py

     文件   16496640  2018-07-29 18:17  chapter7\test\data\preprocesseddata.xls

     文件    8340992  2018-07-29 18:17  chapter7\test\data\princompdata.xls

     文件    4203008  2018-07-29 18:18  chapter7\test\data\zscoredata.xls

     文件   14175130  2018-07-29 18:17  chapter7\拓展思考\拓展思考样本数据.csv

     目录          0  2018-07-29 17:49  chapter7\demo\code

     目录          0  2018-07-29 18:18  chapter7\demo\data

     目录          0  2018-07-29 18:18  chapter7\demo\tmp

     目录          0  2018-07-29 17:49  chapter7\test\code

     目录          0  2018-07-29 18:18  chapter7\test\data

     目录          0  2018-07-29 18:17  chapter7\test\tmp

     目录          0  2018-07-29 17:49  chapter7\demo

     目录          0  2018-07-29 18:17  chapter7\test

     目录          0  2018-07-29 18:17  chapter7\拓展思考

     目录          0  2018-07-29 18:17  chapter7

----------- ---------  ---------- -----  ----

............此处省略2个文件信息

评论

共有 条评论