资源简介
kaggle入门赛房价预测,包括pandas数据预处理,使用skitlen线性回归预测结果,输出结果表格
代码片段和文件信息
#coding=UTF-8
‘‘‘
参看kernel上的数据预处理教程 中文版https://www.leiphone.com/news/201704/Py7Mu3TwRF97pWc7.html
‘‘‘
#invite people for the Kaggle party
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy.stats import norm
from sklearn.preprocessing import StandardScaler
from scipy import stats
import warnings
warnings.filterwarnings(‘ignore‘)
#bring in the six packs
df_train = pd.read_csv(r“train.csv“)#../文件目录
df_test = pd.read_csv(r“test.csv“)#../文件目录
print(df_test.shape)
print(df_train.shape)
#check the decoration
# print df_train.columns
#descriptive statistics summary
# print df_train[‘SalePrice‘].describe()
#histogram
sns.distplot(df_train[u‘SalePrice‘])
# sns.plt.show()
#数据偏度和峰指度量
print(“skewness:{} Kurtosis:{}“.format(df_train[‘SalePrice‘].skew()df_train[‘SalePrice‘].kurt()))
#房价与数字型变量的关系
var = ‘GrLivArea‘
data = pd.concat([df_train[‘SalePrice‘]df_train[var]]axis=1)
data.plot.scatter(x=vary=‘SalePrice‘ylim=(0800000))
plt.show()
var = ‘TotalBsmtSF‘
data = pd.concat([df_train[‘SalePrice‘]df_train[var]]axis=1)
data.plot.scatter(x=vary=‘SalePrice‘ylim=(0800000))
plt.show()
#‘OverallQual’与‘SalePrice’箱型图
var = ‘OverallQual‘
data = pd.concat([df_train[‘SalePrice‘] df_train[var]] axis=1)
f ax = plt.subplots(figsize=(8 6))
fig = sns.boxplot(x=var y=“SalePrice“ data=data)
fig.axis(ymin=0 ymax=800000)
plt.show()
#YearBuilt 与 SalePrice 箱型图
var = ‘YearBuilt‘
data = pd.concat([df_train[‘SalePrice‘] df_train[var]] axis=1)
f ax = plt.subplots(figsize=(16 8))
fig = sns.boxplot(x=var y=“SalePrice“ data=data)
fig.axis(ymin=0 ymax=800000)
plt.xticks(rotation=90)
# plt.show()
#相关系数矩阵
corrmat = df_train.corr()
fax = plt.subplots(figsize=(129))
sns.heatmap(corrmatsquare=True)
plt.xticks(rotation=90)
plt.yticks(rotation=0)
plt.show()
#SalePrice与其他变量之间的相关性
k = 10 #number ofvariables for heatmap
cols = corrmat.nlargest(k ‘SalePrice‘)[‘SalePrice‘].index
cm = np.corrcoef(df_train[cols].values.T)
sns.set(font_scale=1.25)
hm = sns.heatmap(cm cbar=True annot=True square=True fmt=‘.2f‘ annot_kws={‘size‘: 10}
yticklabels=cols.values xticklabels=cols.values)
plt.xticks(rotation=90)
plt.yticks(rotation=0)
plt.show()
# SalePrice 和相关变量之间的散点图
sns.set()
cols = [‘SalePrice‘ ‘OverallQual‘ ‘GrLivArea‘‘GarageCars‘ ‘TotalBsmtSF‘ ‘FullBath‘ ‘YearBuilt‘]
sns.pairplot(df_train[cols] size=2.5)
plt.show()
#缺失数据
total = df_train.isnull().sum().sort_values(ascending=False)
percent = (df_train.isnull().sum()/df_train.isnull().count()).sort_values(ascending=False)
missing_data = pd.concat([totalpercent]axis=1keys=[‘Total‘‘Percent‘])
print(missing_data.head(20))
#处理缺失数据
print (missing_data[missing_data[‘Total‘]>1].index)
# del df_train[missing_data[missing_data[‘Total‘]>1].index]
df_train = df_train.drop((missing_data[missing_data[‘Total‘]>1]).index1)#删除列
# df_train= df_train.drop((missi
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 8549 2017-12-06 15:08 房价预测\kernelhouse.py
文件 79 2017-12-06 15:05 房价预测\readme.txt
文件 29035 2017-11-19 20:27 房价预测\submission.csv
文件 452864 2017-11-19 11:48 房价预测\test.csv
文件 460676 2017-11-09 18:40 房价预测\train.csv
目录 0 2017-12-06 15:08 房价预测
----------- --------- ---------- ----- ----
951203 6
相关资源
- 利用SPSS 拟合非线性回归模型
- data-science-bowl-2018.zip
- kaggle中的地震数据集
- zw_一元线性回归.zip
- 房价预测模型源码(全程编程过程)
- Kaggle竞赛数据及KDD数据
- Kaggle数学竞赛泰坦尼克号生存预测的
- Machine Learning Linear Regression-线性回归
- 栅格变化趋势,一元线性回归
- 房价预测:house-prices-advanced-regressio
- kaggle入门-Titanic
- 支持向量机的非线性回归
- 线性回归数值型预测:预测鲍鱼的年
- kaggle猫狗大战数据集
- 波士顿房价预测数据及代码
- R语言实现多元线性回归
- kaggle信用卡评分数据
- kaggle dog vs cats 数据集
- kaggle比赛titanic数据集
- Spark线性回归数据集测试代码
- Kaggle最受欢迎的10个竞赛数据集
- 波士顿房价预测(数据集)
- 斯坦福机器学习编程作业machine-learn
- kaggle泰坦尼克数据titanic
- 猫狗大战全部代码 keras 深度学习案例
- 一元线性模型.rar
- Kaggle房价预测
评论
共有 条评论