资源简介

由于数据的记录,维护,处理和存储方式,大数据分析面临挑战。 我们证明了分层的,多元的统计机器学习算法,即增强回归树(BRT)可以解决大数据挑战以推动决策。 这项研究面临的挑战是缺乏互操作性,因为数据,GIS形状文件集合,遥感图像以及聚合和内插的时空信息都存储在整体硬件组件中。 对于建模过程,有必要创建一个公共输入文件。 通过将数据源合并在一起,创建了一个结构化但嘈杂的输入文件,该文件显示了不一致和冗余。 在此表明,BRT可以处理不同的数据粒度,异构数据和丢失。 特别是,BRT的优点是默认情况下允许通过区分是否缺失值以及缺失值来处理缺失数据。 最重要的是,BRT提供了多种关于结果解释的可能性,并且通过考虑使用变量在树中定义拆分的频率来自动执行变量选择。 与两个类似的回归模型(随机森林和最小绝对收缩和选择算子,LASSO)的比较表明,在这种情况下,BRT的性能优于后者。 BRT还可作为现实场景中复杂的层次建模的起点。 例如,可以使用现有模型来测试BRT的单一方法或整体方法,以改善各种数据驱动的决策和应用程序的结果。

资源截图

代码片段和文件信息

评论

共有 条评论