资源简介
有一些泰坦尼克的数据集,里面的数据的特征包括了姓名、票的类别、存活、乘坐班、年龄、登录、目的地、房间、票、船和性别。我们用决策树来分析该问题

代码片段和文件信息
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier export_graphviz
from sklearn.model_selection import RandomizedSearchCV
def tree():
# (1)获取数据
titanic = pd.read_csv(“tree_titanic.txt“)
# “row.names““pclass““survived““name““age““embarked““home.dest““room““ticket““boat““sex“
print(titanic.head())
# (2)数据处理 - 需要进行挑选特征值和目标值
x = titanic[[“pclass“ “age“ “sex“]]
y = titanic[“survived“]
print(“特征:\n“ x.head())
# (2)数据处理 - 因为年龄数据有缺失,则需要进行填充:采用年龄的平均值进行补充
x[“age“].fillna(x[“age“].mean() inplace=True)
# (2)数据处理 - 转换成字典,然后进行特征工程的字典抽取
x = x.to_dict(orient=“records“)
print(“转换成字典之后的特征:\n“ x)
# (3)划分训练集、测试集
x_train x_test y_train y_test = train_test_split(x y random_state=22)
# (4)特征工程-进行字典特征抽取
transfer = DictVectorizer()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)
print(“特征工程之后的训练集的特征:\n“ x_train)
print(“特征:\n“ transfer.get_feature_names())
#(5)训练模型
classifier = DecisionTreeClassifier()
param = {“max_depth“: range(250 1)}
#classifier = RandomizedSearchCV(classifier param_distributions=param cv=8)
classifier.fit(x_train y_train)
y_predict = classifier.predict(x_test)
print(“测试结果为:\n“ y_predict == y_test)
# print(“最好预估器为:\n“ classifier.best_estimator_)
# (6)模型评估
score = classifier.score(x_testy_test)
print(“准确度为: “ score)
# (7)可视化
export_graphviz(classifier out_file=“/Users/j1/Documents/机器学习/code/machinelearning/estimator/tree_titanic.dot“ feature_names=transfer.get_feature_names())
return None
if __name__ == ‘__main__‘:
tree()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2019-12-04 13:13 tree_titanic\
文件 734945 2019-12-04 10:22 tree_titanic\tree_titanic.png
文件 2149 2019-12-04 13:13 tree_titanic\tree_titanic.py
目录 0 2019-12-04 13:14 __MACOSX\
目录 0 2019-12-04 13:14 __MACOSX\tree_titanic\
文件 176 2019-12-04 13:13 __MACOSX\tree_titanic\._tree_titanic.py
文件 219624 2019-12-04 11:50 tree_titanic\tree_titanic1.png
文件 115631 2019-12-03 14:38 tree_titanic\tree_titanic.txt
文件 233 2019-12-03 14:38 __MACOSX\tree_titanic\._tree_titanic.txt
相关资源
- ppt 机器学习.ppt
- Logistic回归总结非常好的机器学习总结
- Convex Analysis and Optimization (Bertsekas
- 机器学习个人笔记完整版v5.2-A4打印版
- JUNIOR:粒子物理学中无监督机器学习
- 语料库.zip
- 中国科学技术大学 研究生课程 机器学
- 遗传算法越野小车unity5.5
- 吴恩达机器学习编程题
- shape_predictor_68_face_landmarks.dat.bz2 68个标
- 机器学习实战高清pdf,中文版+英文版
- 李宏毅-机器学习(视频2017完整)
- 机器学习深度学习 PPT
- 麻省理工:深度学习介绍PPT-1
- Wikipedia机器学习迷你电子书之四《D
- Learning From Data Yaser S. Abu-Mostafa
- 基于决策树和朴素贝叶斯算法对Adul
- 北大林宙辰:机器学习一阶算法的优
- 李宏毅深度学习ppt
- 机器学习方法R实现-用决策树、神经网
- 数字金融反欺诈白皮书
- 机器学习班PPT原件全邹博
- 机器学习实战(源码和数据样本)
- 计算广告含有目录 刘鹏版
- 数据挖掘导论完整版PPT及课后习题答
- kaggle信用卡欺诈数据
- 机器学习技法原始讲义和课程笔记
- 机器学习数学 陈希孺《 概率论与数理
- 概率论与数理统计陈希孺
- 哈尔滨工业大学深圳 机器学习 2017 考
评论
共有 条评论