adboost方法（转载）

zoukankan html css js c++ java

adboost方法（转载）

转载链接：http://blog.csdn.net/google19890102/article/details/46376603

一、集成方法(Ensemble Method)

集成方法主要包括Bagging和Boosting两种方法，随机森林算法是基于Bagging思想的机器学习算法，在Bagging方法中，主要通过对训练数据集进行随机采样，以重新组合成不同的数据集，利用弱学习算法对不同的新数据集进行学习，得到一系列的预测结果，对这些预测结果做平均或者投票做出最终的预测。AdaBoost算法和GBDT(Gradient Boost Decision Tree，梯度提升决策树)算法是基于Boosting思想的机器学习算法。在Boosting思想中是通过对样本进行不同的赋值，对错误学习的样本的权重设置的较大，这样，在后续的学习中集中处理难学的样本，最终得到一系列的预测结果，每个预测结果有一个权重，较大的权重表示该预测效果较好，详细的思想可见博文“简单易学的机器学习算法——集成方法(Ensemble Method)”。

二、AdaBoost算法思想

AdaBoost算法是基于Boosting思想的机器学习算法，其中AdaBoost是Adaptive Boosting的缩写，AdaBoost是一种迭代型的算法，其核心思想是针对同一个训练集训练不同的学习算法，即弱学习算法，然后将这些弱学习算法集合起来，构造一个更强的最终学习算法。

为了构造出一个强的学习算法，首先需要选定一个弱学习算法，并利用同一个训练集不断训练弱学习算法，以提升弱学习算法的性能。在AdaBoost算法中，有两个权重，第一个数训练集中每个样本有一个权重，称为样本权重，用向量 $D$ 表示；另一个是每一个弱学习算法具有一个权重，用向量 $alpha$ 表示。假设有 $n$ 个样本的训练集 $left { left (X_1,y_1 ight ),left (X_2,y_2 ight ),cdots ,left (X_n,y_n ight ) ight }$ ，初始时，设定每个样本的权重是相等的，即 $frac{1}{n}$ ，利用第一个弱学习算法 $h_1$ 对其进行学习，学习完成后进行错误率 $varepsilon$ 的统计：

$varepsilon =frac{# error}{# all}$

其中， $&hash; error$ 表示被错误分类的样本数目， $&hash; all$ 表示所有样本的数目。这样便可以利用错误率 $varepsilon$ 计算弱学习算法 $h_1$ 的权重 $alpha _1$ ：

$alpha _1=frac{1}{2}lnleft ( frac{1-varepsilon }{varepsilon } ight )$

在第一次学习完成后，需要重新调整样本的权重，以使得在第一分类中被错分的样本的权重，使得在接下来的学习中可以重点对其进行学习：

$egin{align*} D_{t+1}left ( i ight ) &= frac{D_tleft ( i ight )}{Z_t} imes egin{cases} e^{-alpha _t} & ext{ if } h_tleft ( x_i ight )=y_i \ e^{alpha _t} & ext{ if } h_tleft ( x_i ight ) eq y_i end{cases}\ &= frac{D_tleft ( i ight )expleft ( -alpha _ty_ih_tleft ( x_i ight ) ight )}{Z_t} end{align*}$

其中， $h_tleft ( x_i ight )=y_i$ 表示对第 $i$ 个样本训练正确， $h_tleft ( x_i ight ) eq y_i$ 表示对第 $i$ 个样本训练错误。 $Z_t$ 是一个归一化因子：

$Z_t=sumleft ( D ight )$

这样进行第二次的学习，当学习 $t$ 轮后，得到了 $t$ 个弱学习算法 $left { h_1,cdots ,h_t ight }$ 及其权重 $left { alpha _1,cdots ,alpha _t ight }$ 。对新的分类数据，分别计算 $t$ 个弱分类器的输出 $left { h_1left ( X ight ),cdots ,h_tleft ( X ight ) ight }$ ，最终的AdaBoost算法的输出结果为：

$Hleft ( X ight )=signleft ( sum_{i=1}^{t}alpha _ih_ileft ( X ight ) ight )$

其中， $signleft ( x ight )$ 是符号函数。具体过程可见下图所示：

(图片来自参考文件1)

三、AdaBoost算法流程

上述为AdaBoost的基本原理，下面给出AdaBoost算法的流程：

(来自参考文献2)

四、实际的例子

AdaBoost算法是一种具有很高精度的分类器，其实AdaBoost算法提供的是一种框架，在这种框架下，我们可以使用不同的弱分类器，通过AdaBoost框架构建出强分类器。下面我们使用单层决策树构建一个分类器处理如下的分类问题：

决策树算法主要有ID3，C4.5和CART，其中ID3和C4.5主要用于分类，CART可以解决回归问题。ID3算法可见博文“简单易学的机器学习算法——决策树之ID3算法”，CART算法可见博文“简单易学的机器学习算法——CART之回归树”。对于单层决策树是无法求解上面这样的问题的。

（后面有Python相关代码）

其他链接：

与一个具体的例子和详细的证明：http://blog.51cto.com/baidutech/743809

查看全文

相关阅读:
贪婪算法
 递归快速排序
 递归判断数组最大数字
 加法递归
 快速排序
 二分查找
 介绍求解AX=b:可解性与解的结构
 消元法求解线性方程组
 内容说明-线性代数
 gis

原文地址：https://www.cnblogs.com/zf-blog/p/7975687.html

adboost方法（转载）

一、集成方法(Ensemble Method)

二、AdaBoost算法思想

三、AdaBoost算法流程