资源简介
kaggle入门赛房价预测,包括pandas数据预处理,使用skitlen线性回归预测结果,输出结果表格

代码片段和文件信息
#coding=UTF-8
‘‘‘
参看kernel上的数据预处理教程 中文版https://www.leiphone.com/news/201704/Py7Mu3TwRF97pWc7.html
‘‘‘
#invite people for the Kaggle party
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy.stats import norm
from sklearn.preprocessing import StandardScaler
from scipy import stats
import warnings
warnings.filterwarnings(‘ignore‘)
#bring in the six packs
df_train = pd.read_csv(r“train.csv“)#../文件目录
df_test = pd.read_csv(r“test.csv“)#../文件目录
print(df_test.shape)
print(df_train.shape)
#check the decoration
# print df_train.columns
#descriptive statistics summary
# print df_train[‘SalePrice‘].describe()
#histogram
sns.distplot(df_train[u‘SalePrice‘])
# sns.plt.show()
#数据偏度和峰指度量
print(“skewness:{} Kurtosis:{}“.format(df_train[‘SalePrice‘].skew()df_train[‘SalePrice‘].kurt()))
#房价与数字型变量的关系
var = ‘GrLivArea‘
data = pd.concat([df_train[‘SalePrice‘]df_train[var]]axis=1)
data.plot.scatter(x=vary=‘SalePrice‘ylim=(0800000))
plt.show()
var = ‘TotalBsmtSF‘
data = pd.concat([df_train[‘SalePrice‘]df_train[var]]axis=1)
data.plot.scatter(x=vary=‘SalePrice‘ylim=(0800000))
plt.show()
#‘OverallQual’与‘SalePrice’箱型图
var = ‘OverallQual‘
data = pd.concat([df_train[‘SalePrice‘] df_train[var]] axis=1)
f ax = plt.subplots(figsize=(8 6))
fig = sns.boxplot(x=var y=“SalePrice“ data=data)
fig.axis(ymin=0 ymax=800000)
plt.show()
#YearBuilt 与 SalePrice 箱型图
var = ‘YearBuilt‘
data = pd.concat([df_train[‘SalePrice‘] df_train[var]] axis=1)
f ax = plt.subplots(figsize=(16 8))
fig = sns.boxplot(x=var y=“SalePrice“ data=data)
fig.axis(ymin=0 ymax=800000)
plt.xticks(rotation=90)
# plt.show()
#相关系数矩阵
corrmat = df_train.corr()
fax = plt.subplots(figsize=(129))
sns.heatmap(corrmatsquare=True)
plt.xticks(rotation=90)
plt.yticks(rotation=0)
plt.show()
#SalePrice与其他变量之间的相关性
k = 10 #number ofvariables for heatmap
cols = corrmat.nlargest(k ‘SalePrice‘)[‘SalePrice‘].index
cm = np.corrcoef(df_train[cols].values.T)
sns.set(font_scale=1.25)
hm = sns.heatmap(cm cbar=True annot=True square=True fmt=‘.2f‘ annot_kws={‘size‘: 10}
yticklabels=cols.values xticklabels=cols.values)
plt.xticks(rotation=90)
plt.yticks(rotation=0)
plt.show()
# SalePrice 和相关变量之间的散点图
sns.set()
cols = [‘SalePrice‘ ‘OverallQual‘ ‘GrLivArea‘‘GarageCars‘ ‘TotalBsmtSF‘ ‘FullBath‘ ‘YearBuilt‘]
sns.pairplot(df_train[cols] size=2.5)
plt.show()
#缺失数据
total = df_train.isnull().sum().sort_values(ascending=False)
percent = (df_train.isnull().sum()/df_train.isnull().count()).sort_values(ascending=False)
missing_data = pd.concat([totalpercent]axis=1keys=[‘Total‘‘Percent‘])
print(missing_data.head(20))
#处理缺失数据
print (missing_data[missing_data[‘Total‘]>1].index)
# del df_train[missing_data[missing_data[‘Total‘]>1].index]
df_train = df_train.drop((missing_data[missing_data[‘Total‘]>1]).index1)#删除列
# df_train= df_train.drop((missi
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 8549 2017-12-06 15:08 房价预测\kernelhouse.py
文件 79 2017-12-06 15:05 房价预测\readme.txt
文件 29035 2017-11-19 20:27 房价预测\submission.csv
文件 452864 2017-11-19 11:48 房价预测\test.csv
文件 460676 2017-11-09 18:40 房价预测\train.csv
目录 0 2017-12-06 15:08 房价预测
----------- --------- ---------- ----- ----
951203 6
相关资源
- GM(11)模型与线性回归组合方法在矿
- 基于改进灰色模型的矿井瓦斯涌出量
- 计量数据可用于经典线性回归模型的
- kaggle信用卡欺诈数据
- Give Me Some Credit
- 线性统计模型 线性回归与方差分析
- 机器学习入门 kaggle房价预测 精讲含代
- 利用SPSS拟合非线性回归模型
- u-net眼底图像血管分割keras,kaggle竞赛
- 应用线性回归 第二版 翻译版
- Kaggle--TMDB电影数据分析数据集+代码
- ecommerce-data.zip
- 多元非线性回归分析源代码
- 线性回归预测PM2.5包括代码详解
- kaggle肺癌检测第一名解决方案和代码
- Kaggle入门——猫狗大战
- kaggle-Fruit Recognition10-Banana.zip
- 线性回归分析基础.rar
- TMDB电影数据分析
- 2017年kaggle百万肺癌竞赛第一名的代码
- Airbnb 新用户的民宿预定预测-数据集
- kaggle 文本情感分析数据集
- kaggle 泰坦尼克titanic数据
- 应用线性回归模型(Applied Linear Stat
- Porto_Seguro’s_Safe_Driver_Prediction.zip
- Airbnb New User Bookings 数据集
- R语言——kaggle比赛Titanic代码汇总
- 机器学习4-多元线性回归:数据集与
- 多元线性回归案例分析
- R语言课程论文
评论
共有 条评论