stacking集成算法

发布时间: 2023-05-17 22:25:34

Ⅰ 机器学习故事汇-集成算法

机器学习故事汇-集成算法
【咱们的目标】系列算法讲解旨在用最简单易懂的故事情节帮助大家掌握晦涩无趣的机器学习，适合对数学很头疼的同学们，小板凳走起！

今天咱们就来讨论一下传说中的集成算法，之前咱们讲的算法都是单兵作战的（单个模型得到结果），但是回过头来想一想现在是不是干啥都讲究个合作共赢，所以咱们的模型也是如此。单个算法确实势单力薄，假如我们可以把它们组合起来会不会得到更好的效果呢？（算法们要揭竿起义了，今亡亦死举大计亦死。。。编不下去了）
在集成算法中，有三个核心模块，咱们就一一道来，先来概述一下：
Bagging集成：并行的构造多个基础模型（随机森林），每一个基础模型都各自为政，然后把它们的结果求一个平均就好！
Boosting集成：串行的构造多个基础模型（Xgboost），每一个基础模型都要严格筛选，在前面的基础上加进来的新模型后，它们整体的效果起码得没加这个新的基础模型前要强吧！
Stacking集成：多种算法群殴一起上！选择多个机器学习算法做同一件事，最后把它们的结果合并就OK啦！

先来看看第一个家伙Bagging模型，其典型代表就是随机森立了，简单来说就是并行的训练一堆树模型，然后求其平均结果，在这里我们要讨论一个问题，就是每个树模型该怎么构造呢？如果不加入任何限制，那每个树模型不都差不多嘛，那最后的平均结果又会有什么变化呢？所以为了结果的泛化能力更强，必须要使得每个树模型表现出多样性，也就是尽可能的让每个树模型都不一样！

这该怎么做呢？什么影响模型呢？数据绝对是最大的影响因子，这里的森林很好理解了，就是把树放在一起，那么随机又是什么呢？为了保证每个树的多样性，在构建模型时，我们做了二重随机（我自创的词。。。）第一重就是对样本的选择，每次随机的有放回的选择部分样本作为一棵树的训练样本（比如选择百分之八十作为训练集）。第二重还要考虑特征了，既然样本数据能随机，那么特征也是一样的，每棵树选择的特征也是不一样的随机选择部分特征来建模！

随机的意义非常重要，这是随机森林的精神所在！

随机森林作为灰常经典的机器学习算法，优势自然少不了，当我们建模完之后，还可以对特征进行重要性评估，其实简单来说一个特征的重要与否可以取决于建模的时候如果把这个特征换成噪音特征再去看看结果的错误率是不是显着上升，如果显着上升，那么这个特征自然很重要，如果没变化，那这个特征就没啥用了，因为它和噪音没啥区别！

随机森林中树的个数是不是越多越好呢？理论上越多的树效果应该会更好吧，但是实际上我们把树的个数增加到一定的时候比如100棵了已经，再往上增加树的个数结果也只会发生小范围的浮动，基本也就稳定了！

Boosting集成中典型的代表就属Xgboost啦，一个大杀器，这个算法由于涉及的数学比较多，咱们后续来一个专题去讲Xgboost，我们先来看看简单些的Adaboost。

Adaboost算法概述来说就是，首选我有一个非常简单的模型，比如深度为1的树模型，然后我去预测一下结果，在结果中我发现某些样本预测错了，这个时候第二个简单的树模型就来了，还是同样的任务只不过数据的权重发生了变换，一开始所有的数据都是相同的权重，但是第二次会把前面那次预测错的数据的权重增大，相对来说预测对的数据的权重就会减小。说白了就是让后面的模型更注重我之前哪些数据分错了，这回好能分对它！（好比我们在考试前都会复习之前做错的题）

最后来看一下堆叠模型吧，社会我Stacking，人狠话不多，不需要多解释，做了一堆算法，然后把它们的结果堆叠起来，每个算法都有自己的预测结果，这些结果组合在一起那不相当于一个新的特征嘛，再把它们结果组成的特征去做一个分类或者回归，又得到了一个唯一的结果。

Ⅱ 模型集成（Ensemble）

集成学习的基本思想是“将多个模型组合在一起通常可以产生更强大的模型”，它通过构建多个个体学习器，再用某种策略将其结合起来完成学习任务。

为了将多个个体学习器集成起来，获得比单一个体学习器更好的性能， 个体学习器的性能不能太差，而且个体学习器间要有差异。如何产生有差异的模型，是集成学习的关键 。
根据集成的模型可分为同质集成和异质集成。同质集成学习中的模型是同类型的，如都是神经网络或者都是决策树；异质集成学习中的模型包含不同类型的模型，如可以包含神经网络和决策树。

Boosting先基于初始训练集得到一个弱学习器，再根据当前弱学习器的表现对训练样本分布进行调整，使得较难的样本（即弱学习器学的不好的样本）得到更多关注，基于调整后的样本训练新的弱学习器。如此重复进行，直到训练了所需数目的弱学习器，将他们加权集成，得到最终模型。
Boosting更关注模型偏差，Adaboost是该类算法的典型代表。

个体学习器无强依赖关系的集成算法，对训练集进行采样，虚凯得到若干个不同的子集，由每个数据子集训练得到不同的个体学习器。为保证每个弱学习器都可被较好的训练，可采用有交叠的数据子集以避免无交叠数据子集过小。

给定数据集，从数据集D中随机取出样本a放到子集A中，再友颂将a放回D，这样在下次取样时仍有可能被取到。如此重复采样，得到T个大小为m的子集，分别在每个子集上训练得到T个弱学习器。
Bagging通常用投票法或平均法来得到最终输出。

随机森林是Bagging的变体，它以决策树为基学习器来构建模型集成好誉郑，在决策树训练过程中引入了随机集成。

上述提到的主要是同质集成，Stacking可实现异质集成，可参考常用的模型集成方法介绍：bagging、boosting、stacking

Ⅲ 集成算法

集成学习包括Bagging方法和Boosting方法，下面详细分析这两种方法。

下面是决策树与这些算法框架进行结合所得到的新的算法：
1） Bagging + 决策树 = 随机森林
2）AdaBoost + 决策树 = 提升树
3）Gradient Boosting + 决策树 = GBDT

Bagging法假设训练样本集服从均匀分布，即1/N。

（1）从训练样本集中 随机可放回抽样（Bootstrapping )N次 ，得到与训练集相同大小的训练集，重复抽样K次， 得到K个训练集。
（2）每个训练集得到一个最优模型， K个训练集得到K个最优厅弯模型。
（3）分类问题：对K个模型采用 投票的方式得到分类结果 ；回归问题：对K个模型的值 求平均得到分 类结果。

每一个样本数据是有权重的，每一个学习器是有先后顺序的。在PAC（概率近似正确）的学习框架下，一定可以将弱分类器组装成一个强分类器。

（1）每一轮如何改变训练数据的权值和概率分布？

（2）通过什么方式来组合弱学习器？

其尺氏中，学习器性能越好，对应的权值也越大。样本权值1初始化为1/N，即初始样本集服从均匀分布，后面随着前一个学习器的结果更新样本权值。

集成学习得到多个学习器后，结合策略得到最终的结果。通常用到最多的是平均法，投票法和学习法。

适用范围：

规模大的集成，学习的权重较多 ， 加权平均法易导致过拟合

个体学习器性能相差较大时宜使用加权平均法，相近用简单平均法 。

绝对多数投票法：某标记 超过半数 ，也就是我们常说的要票过半数，否则就当会拒绝预测；

相对多数投票法：预测为得票最多的标记，若同时有多个标记的票最高，则从中随机选取一个，也就是所谓的“少数服从多数”。

加权投票法：提供了预测结果，与加权平均法类似。

对于学习法，代表方法是stacking，当使用stacking的结合策略时，我们不是对弱学习器的结果做简单的逻辑处理，而是再加上一层学习器，也就是说，我们 将训练集弱学习器的学习结果作为输入， 将训练集的输出作为输出，重新训练一个学习器来得到最终结果。
在这种情况下，我们将弱学习器称为初级学习器，将用于结合的学习器称为次级学习器。对于测试集，我们首先用初级学习器预测一次，得到次级学习器的输入样本，再用次级学习器预测一次，得到最终的预测结果。

1）训练样本集
Bagging：训练集是有放回抽样，从原始集中选出的K组训练集是相互独立的。
Boosting：每一次迭代的训练集不变。
2）训练样本权扮困闷重
Bagging：每个训练样本的权重相等，即1/N。
Boosting：根据学习器的错误率不断调整样例的权值，错误率越大，权值越大。
3）预测函数的权重：
Bagging：K组学习器的权重相等，即1/K。
Boosting：学习器性能好的分配较大的权重，学习器性能差的分配较小的权重。
4）并行计算
Bagging：K组学习器模型可以并行生成。
Boosting：K组学习器只能顺序生成，因为后一个模型的样本权值需要前一个学习器模型的结果。

Bagging和Boosting方法都是把若干个学习器整合为一个学习器的方法，Bagging方法可以降低模型的方差，Boosting方法可以降低模型的偏差，在实际工作中，因情况需要选择集成方法。

Ⅳ 集成模型

1.1概述

集成学习（ensemble learning）本身不是一个单独的机器学习算法，而是通过在数据上构建多个模型，集成所有模型的建模结果。集成算法会考虑多个评估器的建模结果，汇总之后得到一个综合的结果，以此来获得比单个模型更好的回归模镇或分类表现。

多个模型集成的模型叫集成评估器，组成集成评估器的每个模型都叫基评估器（base estimator）,通常有三类集成算法：装袋法（Bagging）,提升法（Boosting）和stacking.

装袋法的核心兆源思想是构建多个相互独立的评估器，然后对其预测进行平均或是多数表决原则来决定集成评估器的结果，装袋法的代表模型就是随机森林旦猜粗。

提升法中，基评估器是相关的，是按顺序一一构建的，其核心思想是结合弱评估器的力量一次次对难以评估的样本进行预测，从而构成一个强评估器，提升法的代表模型：Adaboost和梯度提升树。

stacking，就是当初始训练数据学出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。

Ⅳ Stacking算法

大枯庆家都是只关注stacking的操作是什么，丛败前虽然这很重要，但是却没有说明白为何有效。这一直是困惑我的点，我想通过论文搞清这些东西。貌似没找到，找到再贴。
我们将假设训练数据：train.csv有1000行；测试数据：test.csv有200行。然后按照下图所示训练：

最后，我想贴一些现成的stacking的框架的链接：
https://github.com/liyi19950329/stacking
https://github.com/liyi19950329/vecstack
https://github.com/liyi19950329/mlens
https://github.com/rasbt/mlxtend
https://github.com/mpearmain/gestalt
https://github.com/reiinakano/xcessiv
https://github.com/kaz-Anova/StackNet
这些框架都集成好了，学会使用就能实现stacking，不过我还是渗清建议看看源码
如果源码看不下去，可以看看kaggle的教程： https://www.kaggle.com/arthurtok/introction-to-ensembling-stacking-in-python

Blending：用不相交的数据训练不同的 Base Model，将它们的输出取（加权）平均。实现简单，但对训练数据利用少了。

Ⅵ 随机森林原理与Sklearn参数详解

目录

1、集成算法概述

2 、 Sklearn中RandomForestClassifier重要参数详解

3、Sklearn中RandomForestRegressor重要参数详解

4、附录

5、总结

1、集成算法概述：集成算法的目标是多个评估器建模的结果，汇总后得到一个综合结果，以此来获取比单个模型更好的回归或分类表现。多个模型集成成为的模型叫集成评估器，单个模型叫基评估器。通常说有三种集成算法：装袋法（Bagging）、提升法（Boosting）和stacking。装袋法的基本思想是构建多个相互独立的基评估器，然后通过预测平均或多数表决原则来决定集成评估器的结果。装袋法的典型代表就是随机森林（RandomForest）。

2、RandomForestClassifier重要参数：

n_estimators： integer, optional (default=100)，森林中基评估器的数量，即树的数量。n_estimators越大模型效果越好，但达到一定程度时，精确性趋于稳定。n_estimators越大模型的计算量越大，需要的内存也越大。

random_state： int, RandomState instance or None, optional (default=None)，控制树的生成模式。在DecisionTreeClassifier中random_state生成随机的一棵树，这里的参数控制的是随机生成一片森林模式。用袋装法集成时，基分类器应当是相互独立的，是不同的。

bootstrap： boolean, optional (default=True)，要让基分类器尽量都不一样，一种方式是使用不同的训练数据集来训练不同的树。而装袋法采用的是有放回采样法，来确保每棵树的随机性。booststrap就是用来控制抽样技术的参数。

oob_score： bool (default=False)，是否启用袋外数据做测试。有放回采样策略中，自助数据集平均包含63%的原始数据被抽中（每个样本从原始数据抽中到自助集的概率为： =63%左右），也就是说袋外数据（out of bag data 简称oob数据）大致占37%。在使用随机森林时，我们可以不划分测试和训练集，只要开启袋外数据支持，就可以用袋外数据测试我们的模型。然后这并不绝对，如果n足够大，则没有数据落入袋外，自然无法使用oob数据来测试模型了。如果需要用袋外数据做测试，则设置该参数为True，实例化并训练模型完成后，可以通过oob_score_来查看真是落入袋外的数据量。

重要属性与接口：

除了estimators_和oob_socre_这两个属性外，作为树模型也有feature_importances这个属性。

常用的接口主要有：apply，fit，predict和score。除此之外，还需要注意随机森林的predict_proba接口，该接口返回预测数据的被分到每一类标签的概率。如果是二分类，则predict_proba返回的数值大于0.5时被划分为1，否则为0。（在sklearn的随机森林中predict_proba返回每棵树的概率，然后取平均概率，从而根据概率值是否大于0.5划分为1，否则为0，来决定样本分类的）

Bagging要求基分类器相互独立，袋装法另一个必要条件是：基分类器的误差率要小于0.5，即准确率大于0.5，集成效果才好于基分类器。所以使用随机森林前，先要观察各基分类器是否都有至少50%的预测正确率。

3、RandomForestRegressor重要参数：

criterion：string, optional (default=”mse”)

1、输入“mse”使用均方误差mean squared err(MSE)，父节点和子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2损失。

2、输入“friedman_mse”使用费尔德曼均方误差，这种指标使用费尔德曼针对潜在分枝中的问题改进后的均方误差。

3、输入“mae”使用绝对平均误差MAE(mean absolute error)，这种指标使用叶节点的中值来最小化L1损失。

，

其中N是样本数量，i是每一个数据样本，fi是模型回归出的数值，yi是样本点i实际的数值标签。因此MSE的本质是回归值与真实值的差异。在回归树中，MSE不仅是最优的分枝指标，也是最常用的衡量回归树回归质量的指标。

回归树接口：

score: 返回的是R平方，并不是MSE。R平方定义如下：

，，，

其中u是残差平方和（MSE*N），v是总平方和，N是样本数量，i是每个样本，fi是模型回归出的值，yi是样本点i的实际数值标签。y帽是真实数值标签的平均数。

R2可以为正也可以为负，当残差平方和远远大于模型总平方和时，模型非常糟糕，R2为负；但MSE永远为正。但Sklearn当中使用均方误差作为评判标准时，却是计算“负均方误差”（neg_mean_squared_error）以负数表示。其实就是MSE前加了个负号。

4、附录

参数列表

属性列表

接口列表

5、总结：本文详细介绍了集成学习中Bagging的典型代表随机森林的工作原理，同时对sklearn中RandomForestClassifier和RandomForestRegressor核心参数、属性、接口进行了介绍。

Ⅶ stacking集成算法能有几层

不限，但是很多情况下，两层的效果是相对比较好的，多层反而不好。在不同的数据集上多做实验试一下。

Ⅷ 随机森林算法梳理

全称Bootstrap Aggregation的集成算法。每个基学习器都会对训练集进行有放回抽样得到子训练集，比较着名的采样法为 0.632 自助法。每个基学习器基于不同子训练集进行训练，并综合所有基学习器的预测值得到最终的预测结果。 Bagging 常用的综合方法是投票法，票数最多伍键物的类别为预测类别。

Boosting 训练过程为阶梯状，基模型的训练是有顺序的，每个基模型都会在前一个基模型学习的基础上进行学习，最终综合所有基模型的预测值产生最终的预测结果，用的比较多的综合方式为加权法。

Stacking 是先用全部数据训练好基模型，然后每个基模型都对每个训练样本进行的预测，其预腔液测值将作为训练样本的特征值，最终会得到新的训练样本，然后基于新的训练样本进行训练得到模型，然后得到最终预测结果。

那么，为什么集成学习会好于单个学习器呢？原因可能有三：

训练样本可能无法选择出最好的单个学习器，由于没法选择出最好的学习器，所以干脆结合起来一起用；
假设能找到最好的学习器，但由于算法运算的限制无法找到最优解，只能找到次优解，采用集成学习可以弥补算法的不足；
可能算法无法得到最优解，而集成学习能够得到近似解。比如说最优解是一条对角线，而单个决策树得到的结果只能是平行于坐标轴的，但是集成学习可以去拟合这条对角线。

不是所有集成学习框架中的基模型都是弱模型。Bagging 和 Stacking 中的基模型为强模型（偏差低，方差高），而Boosting 中的基模型为弱模型（偏差高，方差低）。

对于 Bagging 来说，每个基模型的权重等于 1/m 且期望近似相等，故我们可以得到：

通过上式我们可以看到：

在此我们知道了为什么 Bagging 中的基模型一定要为强模型，如果 Bagging 使用弱模型则会导致整体模型的偏差提高，而准确度降低。Random Forest 是经典的基于 Bagging 框架的模型，并在此基础上通过引入特征采样和样本采样来降低基模型间的相关性，在公式中显着降低方差公式中的第二项，略微升高第一项，从而使得整体降低模型整体方差。

对于 Boosting 来说，由于基模型共用同一套训练集，所以基模型间具有强相关性，故模型间的相关系数近似等于 1，针对 Boosting 化简公式为：

通过观察整体方差的表达式我们容易发现：

基于 Boosting 框架的 Gradient Boosting Decision Tree 模型中基模型也为树模型，同 Random Forrest，我们也可以对特征进行随机抽样来使基模型间的相关性降低，从而达到减少方差的效果。

️那么这里有一个小小的疑问，Bagging 和 Boosting 到底用的是什么模型呢？

随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于集成学习方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”我们很好理解，一棵叫做树，那么成百上千棵就可以叫做森林了，这也是随机森林的主要思想--集成思想的体现。然而，bagging的代价是不用单棵决策树来做预测，具体哪个变量起到重要作用变得未知，所以bagging改进了预测准确率但亮喊损失了解释性。

“森林”容易理解，就是由很多“树”组成，那么“随机”体现在什么方面呢？

（1）训练集随机的选取：如果训练集大小为N，对于每棵树而言，随机且有放回地从训练集中的抽取N个训练样本（这种采样方式称为bootstrap sample方法），作为该树的训练集；这样保证了每颗树的训练集都不同，从而构建的树也不同

（2）特征的随机选取：从M个特征中选取m个特征，这样可以避免某个特征与分类结果具有强相关性，如果所有特征都选取，那么所有的树都会很相似，那样就不够“随机”了

另外还有一点，随机森林法构建树的时候不需要做额外的剪枝操作。个人理解：因为前两个“随机”操作，以及多颗树的建立，已经避免了过拟合现象，所以这种情况下，我们只需要让每棵树在它自己的领域内做到最好就可以了。

随机森林算法的预测性能与两个因素有关：

（1）森林中任意两棵树的相关性，相关性越强，则总体性能越容易差

（2）森林中每棵树的预测性能，每棵树越好，则总体性能越好

其实可以理解为要求“好而不同”。然而特征数m的选择越大，则相关性与个体性能都比较好，特征数m选择越小，则相关性与个体性能都更小，所以m的选择影响着随机森林的预测性能。

在包括N个样本的数据集中，采用有放回的抽样方式选择N个样本，构成中间数据集，然后在这个中间数据集的所有特征中随机选择几个特征，作为最终的数据集。以上述方式构建多个数据集；一般回归问题选用全部特征，分类问题选择全部特征个数的平方根个特征

利用CART为每个数据集建立一个完全分裂、没有经过剪枝的决策树，最终得到多棵CART决策树；

根据得到的每一个决策树的结果来计算新数据的预测值。

由于RF在实际应用中的良好特性，基于RF，有很多变种算法，应用也很广泛，不光可以用于分类回归，还可以用于特征转换，异常点检测等。下面对于这些RF家族的算法中有代表性的做一个总结。

extra trees是RF的一个变种, 原理几乎和RF一模一样，有区别有：

对于每个决策树的训练集，RF采用的是 随机采样bootstrap来选择采样集作为每个决策树的训练集 ，而extra trees一般不采用随机采样，即 每个决策树采用原始训练集。

在选定了划分特征后，RF的决策树会基于基尼系数，均方差之类的原则，选择一个最优的特征值划分点，这和传统的决策树相同。但是extra trees比较的激进，他会随机的选择一个特征值来划分决策树。

从第二点可以看出， 由于随机选择了特征值的划分点位，而不是最优点位，这样会导致生成的决策树的规模一般会大于RF所生成的决策树。 也就是说，模型的方差相对于RF进一步减少，但是偏倚相对于RF进一步增大。在某些时候，extra trees的泛化能力比RF更好。

Totally Random Trees Embedding(以下简称 TRTE)是一种 非监督学习的数据转化方法。它将低维的数据集映射到高维 ，从而让映射到高维的数据更好的运用于分类回归模型。我们知道，在支持向量机中运用了核方法来将低维的数据集映射到高维，此处TRTE提供了另外一种方法。

TRTE在数据转化的过程也使用了类似于RF的方法，建立T个决策树来拟合数据。当决策树建立完毕以后，数据集里的每个数据在T个决策树中叶子节点的位置也定下来了。比如我们有3颗决策树，每个决策树有5个叶子节点，某个数据特征x划分到第一个决策树的第2个叶子节点，第二个决策树的第3个叶子节点，第三个决策树的第5个叶子节点。则x映射后的特征编码为(0,1,0,0,0, 0,0,1,0,0, 0,0,0,0,1), 有15维的高维特征。这里特征维度之间加上空格是为了强调三颗决策树各自的子编码。

映射到高维特征后，可以继续使用监督学习的各种分类回归算法了。

Isolation Forest（以下简称IForest）是一种 异常点检测的方法。 它也使用了类似于RF的方法来检测异常点。

对于在T个决策树的样本集，IForest也会对训练集进行随机采样,但是采样个数不需要和RF一样，对于RF，需要采样到采样集样本个数等于训练集个数。但是IForest不需要采样这么多，一般来说，采样个数要远远小于训练集个数？为什么呢？因为我们的目的是异常点检测，只需要部分的样本我们一般就可以将异常点区别出来了。

对于每一个决策树的建立， IForest采用随机选择一个划分特征，对划分特征随机选择一个划分阈值。这点也和RF不同。

另外，IForest一般会选择一个比较小的最大决策树深度max_depth,原因同样本采集，用少量的异常点检测一般不需要这么大规模的决策树。

对于异常点的判断，则是将测试样本点x拟合到T颗决策树。计算在每颗决策树上该样本的叶子节点的深度ht(x),从而可以计算出平均高度h(x)。此时我们用下面的公式计算样本点x的异常概率:

其中，m为样本个数。c(m)的表达式为：

s(x,m)的取值范围是[0,1],取值越接近于1，则是异常点的概率也越大。

RF的主要优点有：
训练可以 高度并行化 ，对于大数据时代的大样本训练速度有优势。

由于可以随机选择决策树节点划分特征，这样在 样本特征维度很高的时候，仍然能高效的训练模型。

在训练后，可以给出各个特征对于输出的重要性

由于采用了随机采样，训练出的模型的 方差小，泛化能力强。

相对于Boosting系列的Adaboost和GBDT， RF实现比较简单 。

对部分特征缺失不敏感。

缺点：
在某些噪音比较大的样本集上， RF模型容易陷入过拟合。

取值划分比较多的特征容易对RF的决策产生更大的影响，从而影响拟合的模型的效果。

数据维度相对低（几十维），同时对准确性有较高要求时。
因为不需要很多参数调整就可以达到不错的效果，基本上不知道用什么方法的时候都可以先试一下随机森林。

sklearn.ensemble.RandomForestClassifier(n_estimators=100, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None)

Ⅸ GBDT —— 梯度提升决策树

GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。
GBDT中的树是回归树（不是分类树），GBDT用来做回归预测，调整后也可以用于分类。
GBDT主要由三个概念组成：Regression Decistion Tree（即DT)，Gradient Boosting（即GB)，Shrinkage (算法的一个重要演进分枝，目前大部分源码都按该版本实现）。搞定这三个概念后就能明白GBDT是如何工作的。

提起决策树（DT, Decision Tree) 绝大部分人首先想到的就是C4.5分类决策树。但如果一开始就把GBDT中的树想成分类树，那就错了。千万不要以为GBDT是很多棵分类树。决策树分为两大类，回归树和分类树。前者用于预测实数值，如明天的温度、用户的年龄、网页的相关程度；后者用于分类标签值，如晴天/阴天/雾/雨、用户性别、网页是否是垃圾页面。这里要强调游谈做的是，前者的结果加减是有意义的，如10岁+5岁-3岁=12岁，后者则无意义，如男+男+女=到底是男是女？GBDT的核心在于累加所有树的结果作为最终结果，就像前面对年龄的累加（-3是加负3），而分类树的结果显然是没办法累加的，所以 GBDT中的树都是回归树，不是分类树 ，这点对理解GBDT相当重要（尽管GBDT调整后也可用于分类但不代表GBDT的树是分类树）。

回归树总体流程类似于分类树，区别在于，回归树的每一个节点都会得一个预测值，以年龄为例，该预测值等于属于这个节点的所有人年龄的平均值。分枝时穷举每一个feature的每个阈值找最好的分割点，但神衡衡量最好的标准不再是最大熵，而是最小化平方误差。也就是被预测出错的人数越多，错侍瞎的越离谱，平方误差就越大，通过最小化平方误差能够找到最可靠的分枝依据。分枝直到每个叶子节点上人的年龄都唯一或者达到预设的终止条件(如叶子个数上限)， 若最终叶子节点上人的年龄不唯一，则以该节点上所有人的平均年龄做为该叶子节点的预测年龄。

回归树算法如下图（截图来自《统计学习方法》5.5.1 CART生成）：

梯度提升（Gradient boosting）是一种用于回归、分类和排序任务的机器学习技术 [1] ，属于Boosting算法族的一部分。Boosting是一族可将弱学习器提升为强学习器的算法，属于集成学习（ensemble learning）的范畴。Boosting方法基于这样一种思想：对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断要好。通俗地说，就是“三个臭皮匠顶个诸葛亮”的道理。梯度提升同其他boosting方法一样，通过集成（ensemble）多个弱学习器，通常是决策树，来构建最终的预测模型。

Boosting、bagging和stacking是集成学习的三种主要方法。不同于bagging方法，boosting方法通过分步迭代（stage-wise）的方式来构建模型，在迭代的每一步构建的弱学习器都是为了弥补已有模型的不足。Boosting族算法的着名代表是AdaBoost，AdaBoost算法通过给已有模型预测错误的样本更高的权重，使得先前的学习器做错的训练样本在后续受到更多的关注的方式来弥补已有模型的不足。与AdaBoost算法不同，梯度提升方法在迭代的每一步构建一个能够沿着梯度最陡的方向降低损失（steepest-descent）的学习器来弥补已有模型的不足。经典的AdaBoost算法只能处理采用指数损失函数的二分类学习任务 [2] ，而梯度提升方法通过设置不同的可微损失函数可以处理各类学习任务（多分类、回归、Ranking等），应用范围大大扩展。另一方面，AdaBoost算法对异常点（outlier）比较敏感，而梯度提升算法通过引入bagging思想、加入正则项等方法能够有效地抵御训练数据中的噪音，具有更好的健壮性。这也是为什么梯度提升算法（尤其是采用决策树作为弱学习器的GBDT算法）如此流行的原因，

提升树是迭代多棵回归树来共同决策。当采用平方误差损失函数时，每一棵回归树学习的是之前所有树的结论和残差，拟合得到一个当前的残差回归树，残差的意义如公式：残差 = 真实值 - 预测值。提升树即是整个迭代过程生成的回归树的累加。 GBDT的核心就在于，每一棵树学的是之前所有树结论和的残差，这个残差就是一个加预测值后能得真实值的累加量。

提升树利用 加法模型和前向分步算法 实现学习的优化过程。当损失函数时平方损失和指数损失函数时，每一步的优化很简单，如平方损失函数学习残差回归树。

提升方法其实是一个比adaboost概念更大的算法，因为adaboost可以表示为boosting的前向分布算法(Forward stagewise additive modeling)的一个特例，boosting最终可以表示为：

其中的w是权重，Φ是弱分类器(回归器)的集合,其实就是一个加法模型(即基函数的线性组合)

前向分布算法 实际上是一个贪心的算法，也就是在每一步求解弱分类器Φ(m)和其参数w(m)的时候不去修改之前已经求好的分类器和参数：

OK，这也就是提升方法（之前向分布算法）的大致结构了，可以看到其中存在变数的部分其实就是极小化损失函数这关键的一步了，如何选择损失函数决定了算法的最终效果(名字)……这一步你可以看出算法的“趋势”，以后再单独把“趋势”拿出来说吧，因为我感觉理解算法的关键之一就是理解算法公式的“趋势”

不同的损失函数和极小化损失函数方法决定了boosting的最终效果，我们现在来说几个常见的boosting：

广义上来讲，所谓的Gradient Boosting 其实就是在更新的时候选择梯度下降的方向来保证最后的结果最好，一些书上讲的“残差” 方法其实就是L2Boosting吧，因为它所定义的残差其实就是L2Boosting的Derivative，接下来我们着重讲一下弱回归器(不知道叫啥了，自己编的)是决策树的情况，也就是GBDT。

GBDT算法可以看成是由K棵树组成的加法模型：

解这一优化问题，可以用前向分布算法（forward stagewise algorithm）。因为学习的是加法模型，如果能够从前往后，每一步只学习一个基函数及其系数（结构），逐步逼近优化目标函数，那么就可以简化复杂度。这一学习过程称之为Boosting。具体地，我们从一个常量预测开始，每次学习一个新的函数，过程如下：

举个例子，参考自一篇博客, 该博客举出的例子较直观地展现出多棵决策树线性求和过程以及残差的意义。
还是年龄预测，简单起见训练集只有4个人，A,B,C,D，他们的年龄分别是14,16,24,26。其中A、B分别是高一和高三学生；C,D分别是应届毕业生和工作两年的员工。如果是用一棵传统的回归决策树来训练，会得到如下图1所示结果：

现在我们使用GBDT来做这件事，由于数据太少，我们限定叶子节点做多有两个，即每棵树都只有一个分枝，并且限定只学两棵树。我们会得到如下图2所示结果：

在第一棵树分枝和图1一样，由于A,B年龄较为相近，C,D年龄较为相近，他们被分为两拨，每拨用平均年龄作为预测值。此时计算残差 （残差的意思就是： A的预测值 + A的残差 = A的实际值） ，所以A的残差就是16-15=1（注意，A的预测值是指前面所有树累加的和，这里前面只有一棵树所以直接是15，如果还有树则需要都累加起来作为A的预测值）。进而得到A,B,C,D的残差分别为-1,1，-1,1。然后我们拿残差替代A,B,C,D的原值，到第二棵树去学习，如果我们的预测值和它们的残差相等，则只需把第二棵树的结论累加到第一棵树上就能得到真实年龄了。这里的数据显然是我可以做的，第二棵树只有两个值1和-1，直接分成两个节点。此时所有人的残差都是0，即每个人都得到了真实的预测值。

换句话说，现在A,B,C,D的预测值都和真实年龄一致了。Perfect!：
A: 14岁高一学生，购物较少，经常问学长问题；预测年龄A = 15 – 1 = 14
B: 16岁高三学生；购物较少，经常被学弟问问题；预测年龄B = 15 + 1 = 16
C: 24岁应届毕业生；购物较多，经常问师兄问题；预测年龄C = 25 – 1 = 24
D: 26岁工作两年员工；购物较多，经常被师弟问问题；预测年龄D = 25 + 1 = 26

那么哪里体现了Gradient呢？其实回到第一棵树结束时想一想，无论此时的cost function是什么，是均方差还是均差，只要它以误差作为衡量标准，残差向量(-1, 1, -1, 1)都是它的全局最优方向，这就是Gradient。

讲到这里我们已经把GBDT最核心的概念、运算过程讲完了！没错就是这么简单。

该例子很直观的能看到，预测值等于所有树值得累加，如A的预测值 = 树1左节点值 15 + 树2左节点 -1 = 14。
因此，给定当前模型 fm-1(x)，只需要简单的拟合当前模型的残差。现将回归问题的提升树算法叙述如下：

答案是过拟合。过拟合是指为了让训练集精度更高，学到了很多”仅在训练集上成立的规律“，导致换一个数据集当前规律就不适用了。其实只要允许一棵树的叶子节点足够多，训练集总是能训练到100%准确率的（大不了最后一个叶子上只有一个instance)。在训练精度和实际精度（或测试精度）之间，后者才是我们想要真正得到的。
我们发现图1为了达到100%精度使用了3个feature（上网时长、时段、网购金额），其中分枝“上网时长>1.1h” 很显然已经过拟合了，这个数据集上A,B也许恰好A每天上网1.09h, B上网1.05小时，但用上网时间是不是>1.1小时来判断所有人的年龄很显然是有悖常识的；
相对来说图2的boosting虽然用了两棵树，但其实只用了2个feature就搞定了，后一个feature是问答比例，显然图2的依据更靠谱。（当然，这里是LZ故意做的数据，所以才能靠谱得如此狗血。实际中靠谱不靠谱总是相对的） Boosting的最大好处在于，每一步的残差计算其实变相地增大了分错instance的权重，而已经分对的instance则都趋向于0。这样后面的树就能越来越专注那些前面被分错的instance。就像我们做互联网，总是先解决60%用户的需求凑合着，再解决35%用户的需求，最后才关注那5%人的需求，这样就能逐渐把产品做好，因为不同类型用户需求可能完全不同，需要分别独立分析。如果反过来做，或者刚上来就一定要做到尽善尽美，往往最终会竹篮打水一场空。

Shrinkage（缩减）的思想认为，每次走一小步逐渐逼近结果的效果，要比每次迈一大步很快逼近结果的方式更容易避免过拟合。即它不完全信任每一个棵残差树，它认为每棵树只学到了真理的一小部分，累加的时候只累加一小部分，通过多学几棵树弥补不足。用方程来看更清晰，即
没用Shrinkage时：（yi表示第i棵树上y的预测值， y(1~i)表示前i棵树y的综合预测值）
y(i+1) = 残差(y1~yi)，其中：残差(y1~yi) = y真实值 - y(1 ~ i)
y(1 ~ i) = SUM(y1, ..., yi)
Shrinkage不改变第一个方程，只把第二个方程改为：
y(1 ~ i) = y(1 ~ i-1) + step * yi

即Shrinkage仍然以残差作为学习目标，但对于残差学习出来的结果，只累加一小部分（step 残差）逐步逼近目标，step一般都比较小，如0.01~0.001（注意该step非gradient的step），导致各个树的残差是渐变的而不是陡变的。直觉上这也很好理解，不像直接用残差一步修复误差，而是只修复一点点，其实就是把大步切成了很多小步。本质上，Shrinkage为每棵树设置了一个weight，累加时要乘以这个weight，但和Gradient并没有关系 *。这个weight就是step。就像Adaboost一样，Shrinkage能减少过拟合发生也是经验证明的，目前还没有看到从理论的证明。

该版本GBDT几乎可用于所有回归问题（线性/非线性），相对logistic regression仅能用于线性回归，GBDT的适用面非常广。亦可用于二分类问题（设定阈值，大于阈值为正例，反之为负例）。

参考资料：
http://blog.csdn.net/w28971023/article/details/8240756
http://blog.csdn.net/dark_scope/article/details/24863289
https://www.jianshu.com/p/005a4e6ac775
https://www.zybuluo.com/yxd/note/611571

Ⅹ Multi-Sample Dropout

1. 模型结构

orginal dropout ：对单个样本，进行单次drop out。

2. 思想

stacking方法中的子模型。事实证明，用多个子模型做模型改则空融合可以提高模型的性能。

训练时，对原始数据进行变换，创建出多个分身。分身可能是带噪音，可能是不完整（此方法）。从而提高泛化能力。

3. 实现方法

训练阶段，每次dropout首先会随机的选取50%（这个比例可以自己设置）的神经元，其他50%被丢弃。

通过多次的dropout，从特征中选择了不同的特征子集进行训练，相当于重采样。

再通过共享的全连接层和loss层。

loss：每条样本，多个分身，得到的多个loss的平均值最小。

4. 优点

    加快收敛，性能提升。dropout只使用在最后的几层，而全连接层的训练时间较快。因此，对比更大的 mini-batch，虽然可以达到相同的效果，但是实际上会增加计算的耗时。

实现简单：在 dropout 层后复制部分训练网络，并在这些复制的全连接层之盯中间共享权重就可以了，无需新运算符。

5. 发散

    传统的机器学习算法，如排序中常用的树模型。stack思想下，得到了不同的树。如果就用一棵树呢？？泛化能力能变强吗？

    Stacking是通过一个元分类器或者元回归器来整合多个分类模型或回归模型的集成学习技术。基础模型利用整个训练集做训练，元模型将基础模型的特征作为特征进行训练核瞎。(N->1) 。基础模型通常包含不同的学习算法，因此stacking通常是异质集成。

6. 缺点

1）模型的设计，存在训练和预测不一致问题。训练时,Dropout 往（某些层的）输入加上了乘性噪声。而预测时，理论上，应该是对同一个输入多次传入模型中（模型不关闭Dropout），然后把多次的预测结果平均值作为最终的预测结果。实际上，预测的时候用的是关闭Dropout的单模型，两者未必等价，这就是Dropout的训练预测不一致问题。

2）损失函数的设计，只有交叉熵。如果只有交叉熵这一项，模型的训练结果是“不同的Dropout下，目标类的得分都大于非目标类的得分”。

链接：https://kexue.fm/archives/8496

阅读全文

热点内容

主播网站源码发布：2025-05-15 02:50:56 浏览：167

中文编程语言有哪些发布：2025-05-15 02:48:59 浏览：535

配置中心应急流程有哪些发布：2025-05-15 02:37:31 浏览：669

php宏定义发布：2025-05-15 02:32:54 浏览：270

咸鱼支付密码哪里改发布：2025-05-15 02:32:53 浏览：520

存储机箱发布：2025-05-15 02:31:31 浏览：836

编程很累吗发布：2025-05-15 02:29:25 浏览：552

疫情期间访问国外网络发布：2025-05-15 02:24:24 浏览：247

我的世界网易版游戏服务器发布：2025-05-15 02:23:46 浏览：221

全球编程网站发布：2025-05-15 02:22:55 浏览：334

stacking集成算法

与stacking集成算法相关的资讯