资源简介
有一些泰坦尼克的数据集,里面的数据的特征包括了姓名、票的类别、存活、乘坐班、年龄、登录、目的地、房间、票、船和性别。我们用决策树来分析该问题
代码片段和文件信息
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier export_graphviz
from sklearn.model_selection import RandomizedSearchCV
def tree():
# (1)获取数据
titanic = pd.read_csv(“tree_titanic.txt“)
# “row.names““pclass““survived““name““age““embarked““home.dest““room““ticket““boat““sex“
print(titanic.head())
# (2)数据处理 - 需要进行挑选特征值和目标值
x = titanic[[“pclass“ “age“ “sex“]]
y = titanic[“survived“]
print(“特征:\n“ x.head())
# (2)数据处理 - 因为年龄数据有缺失,则需要进行填充:采用年龄的平均值进行补充
x[“age“].fillna(x[“age“].mean() inplace=True)
# (2)数据处理 - 转换成字典,然后进行特征工程的字典抽取
x = x.to_dict(orient=“records“)
print(“转换成字典之后的特征:\n“ x)
# (3)划分训练集、测试集
x_train x_test y_train y_test = train_test_split(x y random_state=22)
# (4)特征工程-进行字典特征抽取
transfer = DictVectorizer()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)
print(“特征工程之后的训练集的特征:\n“ x_train)
print(“特征:\n“ transfer.get_feature_names())
#(5)训练模型
classifier = DecisionTreeClassifier()
param = {“max_depth“: range(250 1)}
#classifier = RandomizedSearchCV(classifier param_distributions=param cv=8)
classifier.fit(x_train y_train)
y_predict = classifier.predict(x_test)
print(“测试结果为:\n“ y_predict == y_test)
# print(“最好预估器为:\n“ classifier.best_estimator_)
# (6)模型评估
score = classifier.score(x_testy_test)
print(“准确度为: “ score)
# (7)可视化
export_graphviz(classifier out_file=“/Users/j1/Documents/机器学习/code/machinelearning/estimator/tree_titanic.dot“ feature_names=transfer.get_feature_names())
return None
if __name__ == ‘__main__‘:
tree()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2019-12-04 13:13 tree_titanic\
文件 734945 2019-12-04 10:22 tree_titanic\tree_titanic.png
文件 2149 2019-12-04 13:13 tree_titanic\tree_titanic.py
目录 0 2019-12-04 13:14 __MACOSX\
目录 0 2019-12-04 13:14 __MACOSX\tree_titanic\
文件 176 2019-12-04 13:13 __MACOSX\tree_titanic\._tree_titanic.py
文件 219624 2019-12-04 11:50 tree_titanic\tree_titanic1.png
文件 115631 2019-12-03 14:38 tree_titanic\tree_titanic.txt
文件 233 2019-12-03 14:38 __MACOSX\tree_titanic\._tree_titanic.txt
相关资源
- Hadoop + Spark 大数据巨量分析与机器学
- 中国科学院大学2016机器学习试卷答案
- 国科大模式识别与机器学习2015-2016试
- 机器学习SVM(支持向量机)实验报告
- 基于贝叶斯算法的手机垃圾短信过滤
- 基于贝叶斯算法的手机垃圾短信过滤
- 良\\恶性乳腺癌肿瘤预测数据集
- 2019-机器学习与应用-雷明-清华出版社
- 吴恩达coursera机器学习吴恩达全套视频
- 决策树代码及实验数据文件
- Apsara Clouder大数据技能认证:基于机器
- 终极算法:机器学习和人工智能如何
- 基于MapReduce实现决策树算法
- UCI 机器学习Wine数据集
- 《机器学习实战》贝叶斯垃圾邮箱分
- 加州大学机器学习数据库中的german
- 机器学习导论第二版英文习题答案
- 决策树分类方法
- Tom的机器学习中文版byOneRoad.rar
- 用机器学习算法对UCI上的三个数据集
- 逻辑回归的测试数据集
- 天池精准医疗大赛数据
-
训练好的车牌检测xm
l - coursera斯坦福机器学习公开课支持向量
- 全套机器学习深度学习——链接.txt
- 机器学习系统设计书籍源码及附带数
- 机器学习算法,包含随机森林,决策
- 如何读一个成功的机器学习博士?
- 手写数字数据集txt文件.rar
- 轴承故障诊断算法模型、程序代码、
评论
共有 条评论