Table of contents
集成学习总结
本文译自ML-Ensembles-Methods 集成方法的目标是将具有给定学习算法构建的几个基本estimator的预测结果结合起来,以改善单个estimator上的泛化能力和鲁棒性。对于组合的机器学习技术,它结合了几个基础模型以产生一个最佳预测或者说集合是将各种学习者(不同模型)组合在一起的艺术,以即使模型的稳定性和预测能力得到调整。
集合方法通常分为两类
- 平均方法。其驱动原理是独立地建立几个估计量,然后对它们的预测进行平均。平均而言,由于其方差减小,组合估计通常比任何单一基估计都好。例子:Bagging方法,随机森林方法等。
- boosting方法,基本估计量是顺序建立的,每一个都试图减少组合估计量的偏差。其动机是将几个薄弱的模型组合成一个强大的集合。例如:AdaBoost,梯度树Boosting(GBDT, gradient boost decision tree)。
将来自不同模型的预测结合起来的三种最流行的方法是
- Bagging : 从训练数据集的不同子样本中构建多个模型(通常是相同类型的)。
- Boosting : 构建多个模型(通常是同一类型的),其中每个模型都能学会修复链中先前模型的预测错误。
- Voting : 建立多个模型(通常是不同类型的)和简单的统计数据(如计算平均值)来组合预测。
Bagging 方法
自动聚合或Bagging,包括了:从你的训练数据集(带替换)中提取多个样本,并为每个样本训练一个模型。最终的输出预测是所有子模型预测的平均值。
本节所述的三种bagging模型如下
- Bagged Decision Trees : Bagging决策树算法在具有高方差的算法中表现最好。一个流行的例子是决策树,通常在没有修剪的情况下构建
- Random Forest : 训练数据集的随机森林样本被替换,但是树的构造方式降低了单个分类器之间的相关性。具体来说,不是在树的构造中贪婪地选择最好的拆分点,而是在每次拆分时只考虑一个随机的特征子集。
- Extra Trees : Bagging的另一种修改,其中随机树是由训练数据集的样本构建的。
bagging 方法使用实例
Boosting 方法
增强集成算法创建了一系列模型,这些模型试图在序列中纠正之前的模型的错误。模型创建后,可以根据其被证明的准确性进行预测,并将结果组合起来创建最终的输出预测。
两种最常见的boosting集成机器学习算法是
- AdaBoost : AdaBoost可能是第一个成功的增强集成算法。它的工作原理通常是根据分类的难易程度对数据集中的实例进行加权,从而允许算法在构建后续模型时更多更少地关注这些实例。
- Stochastic Gradient Boosting(最好的) : 随机梯度增强(也称为梯度增强机)是最复杂的集成技术之一。这种技术也被证明可能是通过集成来提高性能的最佳技术之一