资源简介
用随机森林实现泰坦尼克号数据集的分类预测,包含参数调试过程和分类结果评估,并绘制ROC曲线。
代码片段和文件信息
# !/usr/bin/env python
# _*_ coding: utf-8 _*_
# _*_ coding: utf-8 _*_
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn import metrics
import time
np.seterr(divide=‘ignore‘ invalid=‘ignore‘)
train = pd.read_csv(“titanic/train.csv“ dtype={“Age“: np.float64})
# 数据清洗
def harmonize_data(titanic):
# 填充空数据 和 把string数据转成integer表示
# 对于年龄字段发生缺失,我们用所有年龄的均值替代
titanic[“Age“] = titanic[“Age“].fillna(titanic[“Age“].median())
# 性别男: 用0替代
titanic.loc[titanic[“Sex“] == “male“ “Sex“] = 0
# 性别女: 用1替代
titanic.loc[titanic[“Sex“] == “female“ “Sex“] = 1
titanic[“Embarked“] = titanic[“Embarked“].fillna(“S“)
titanic.loc[titanic[“Embarked“] == “S“ “Embarked“] = 0
titanic.loc[titanic[“Embarked“] == “C“ “Embarked“] = 1
titanic.loc[titanic[“Embarked“] == “Q“ “Embarked“] = 2
titanic[“Fare“] = titanic[“Fare“].fillna(titanic[“Fare“].median())
return titanic
train_data = harmonize_data(train)
test = pd.read_csv(“titanic/test.csv“ dtype={“Age“: np.float64})
test_data = harmonize_data(test)
# 列出对生存结果有影响的字段
predictors = [“Pclass“ “Sex“ “Age“ “SibSp“ “Parch“ “Fare“ “Embarked“]
# 不调参
x = train[predictors]
y = train_data[‘Survived‘]
x_test = test[predictors]
y_test = test_data[‘Survived‘]
# 拆分训练集和测试集(这里由于给了另外给了测试集,此处无需拆分)
# feature_train feature_test target_train target_test = train_test_split(x y test_size=0.3 random_state=10)
rf = RandomForestClassifier(oob_score=True random_state=10 n_jobs=-1)
# start = time.perf_counter()
- 上一篇:基于Python的SVM解决异或问题
- 下一篇:利用爬虫获取IP的地理位置
相关资源
- 基于Python的SVM解决异或问题
- Tensorflow笔记-中国大学全部讲义源代码
- Python识别深圳信用网验证码的完整代
- C4.5决策树算法的Python代码和数据样本
- python音乐播放+滤波器
- 树莓派利用python、opencv、PyALPR识别车
- python 数独游戏源码
- 爬取某块区域的实时交通态势数据,
- Anaconda3-5.3.1-Windows-x86_64 (Python3.x版本
- DS_Store文件泄漏利用python脚本
- ArcGIS10.1中利用python语言批量实现遥感
- 用自己的数据制作python版本cifar10数据
- python遗传算法求函数极值.py
- Python教程.rar
- python数据挖掘分类聚类回归关联算法
- Python爬虫源码—爬取猫途鹰官方旅游
- 密度聚类(Density peaks Clustering)Pyth
- python摄像头视频显示到TK窗口
- 国际麻将AI-根据向听数计算最优操作
- 爬取瓜子二手车.py
- 人脸识别UI Pythone+pyq5+opencv 多线程模式
- pcap-1.1.win32-py2.7.exe
- Python制作的汉诺塔演示小脚本
- python django+bootstrap实现用户管理系统
- python+MySQL+bootstrap+ajax项目
- 基于Python的双路视频传输及双显示系
- python模型restful接口
- Python3—EM&GMM;
- python+numpy实现自适应阈值分割函数O
- python+numpy实现均值滤波
评论
共有 条评论