拥有高方差使得决策树(secision tress)在处理特定训练数据集时其结果显得相对脆弱。bagging(bootstrap aggregating 的缩写)算法从训练数据的样本中建立复合模型,可以有效降低决策树的方差,但树与树之间有高度关联(并不是理想的树的状态)。随机森林算法(Random forest algorithm)是对 bagging 算法的扩展。除了仍然根据从训练数据样本建立复合模型之外,随机森林对用做构建树(tree)的数据特征做了一定限制,使得生成的决策树之间没有关联,从而提升算法效果。本教程旨在探讨如何用 Python 实现随机森林算法。通过本文,我们可以了解到: bagged decision trees 与随机森林算法的差异; 如何构建含更多方差的装袋决策树; 如何将随机森林算法运用于预测模型相关的问题。 算法描述这个章节将对随机森林算法本身以及本教程的算法试验所用的声纳数据集(Sonar dataset)做一个简要介绍。随机森林算法决策树运行的每一步都涉及到对数据集中的最优分裂点(best split point)进行贪婪选择(greedy select
一只胖橘