Foundations of Machine Learning: The Margin Explanation for Boosting's Effectiveness

zoukankan html css js c++ java

Foundations of Machine Learning: The Margin Explanation for Boosting's Effectiveness
Foundations of Machine Learning: The Margin Explanation for Boosting's Effectiveness

    在这一节，我们要回答的一个问题是：什么样的分类器用于预测未知数据会更让人信服？而要回答这个问题，我们首先得量化“信服”这个概念。那就是margin， margin越大就越让人信服。

一、支撑向量机

    SVM 用一个超平面$wcdot x+ b=0$对数据进行分类，而分类的原则是使样本离这个超平面最短的距离尽可能的大，或者说使所有样本点离这个超平面的最短距离最大。



图 1：SVM example

如图1所示，点到直线的距离为：$frac{|wcdot x+b|}{| w|_2}$，则最小距离为： $ ho=min_{xin S}frac{|wcdot x+b|}{|w|_2}$。

    由于我们可以同时对$(w,b)$进行收缩和扩大而不会影响超平面的位置，故我们可以令$min_{xin S}|wcdot x+b|=1$，即$ ho=min_{xin S}frac{|wcdot x+b|}{|w|_2}=frac{1}{|w|_2}$，而这个$ ho$就是margin。现在我们要最大化这个$ ho$，即最小化这个margin。

    另外，我们还必须保证其他所有点到超平面的margin大于1。即对所有点$x_i$，有$frac{|wcdot x_i+b|}{|w|_2}geq ho = frac{1}{|w|_2}$即$|wcdot x_i+b|geq 1$。所以最终的优化模型型为：

egin{eqnarray*}min & frac{1}{2}|w|_{2}^{2} \ ext{s.t.} & y_i(wcdot x_i+b)geq 1end{eqnarray*}

这是对线性可分的情况，若对线性不可分，可加入slack 变量，模型变为:

egin{align*} min_{w,b,xi} & frac{1}{2}|w|_{2}^{2} + Csum_{i=1}^mxi_i \ ext{s.t.} & y_i(wcdot x_i + b) geq 1- xi_i \             & xi_i geq 0, iin 1,..., mend{align*}

上面的这些模型是在原空间下的模型，我们可以利用lagrangian把其转化为对偶空间下的形式，这样就可以利用kernel实现非线性的分类。

二、边界理论（Margin Theroy）

定义 1：一个带有标签$y$的样本点$x$与线性分类器$h: x ightarrow wcdot x+b$的几何边界$ ho(x)$是该点到超平面$wcdot x + b=0$的距离：

$$ ho(x) = frac{y(wcdot x + b)}{|w|_2}$$

对于样本$S=(x_1,x_2,...,x_m)$，线性分类器$h$的边界是样本中所有点的最小边界：

$$ ho=min _{1leq ileq m}frac{y_i(wcdot x_i + b)}{|w|_2}$$

我们知道超平面的VC-dimension 为$N+1$，故应用推论2.4 可得：

$$mathcal{R}(h) leq widehat{mathcal{R}}(h) + sqrt{frac{2(N+1)logfrac{em}{N+1}}{w}} + sqrt{frac{loffrac{1}{delta}}{2m}}$$

这是个与N有关的界，当应用kernel方法时，这个N可能很大甚至无穷大，故这个界对我们来说没有什么意义。

    接下去，我们从margin的角度来求它的上界。

定理 4.1 令 $S subseteq{x:|x|_2leq gamma}$。那么，相关超平面 ${x ightarrow sgn(wcdot x):min _{xin S}|wcdot x|=1 igwedge |w|_2leq Lambda}$的VC维d满足以下不等式：

$$dleq gamma^2Lambda^2.$$

证明：假设${x_1,x_2,...,x_d}$可以被正则超平面打散。也就说，对于所有$y={y_1,y_2,...,y_d}in{-1,+1}^d$, 存在$w$使$forall i in [1,d], 1 leq y_i(wcdot x_i)$ 成立。即

$$dleq wsum _{i=1}^d y_ix_i leq |w|_2|sum _{i=1}^m y_ix_i|_2leqLambda|sum _{i=1}^m y_ix_i|_2$$

    由于上式对于所有$y$均成立，故对其期望也成立：

egin{align*} d &leq Lambda mathop{E} _{y}[|sum _{i=1}^d y_ix_i|_2] \    & leq Lambda [mathop{E} _{y}[|sum _{i=1}^d y_ix_i|_2^2]^{1/2} \    & = Lambda [sum _{i,j=1}^dmathop{E} _y[y_iy_j](x_ix_j)]^{1/2} \    & = Lambda [sum _{i=1}^d(x_ix_j)]^{1/2} \    & leq Lambda[dgamma^2]^{1/2} = Lambdagammasqrt{d} end{align*}

即 $sqrt{d} leq Lambdagamma$。

    我们也可以用$gamma,Lambda$ 界定 empirical Rademacher complexity。

定理 4.2：令样本$S subseteq{x:|x|_2leq gamma}$的大小为m，令$H={x ightarrow wcdot x:|w|_2leqLambda}$。那么H的empirical Rademacher complexity可以用如下式子来界定：

$$widehat{mathfrak{R}}(H)leq sqrt{frac{gamma^2Lambda^2}{m}}$$

证明：

egin{align*} widehat{mathfrak{R}}_S(H) &= frac{1}{m}mathop{E} _{sigma}[sup _{|w|_2leqLambda}sum _{i=1}^msigma_iwx_i] \                              &= frac{1}{m}mathop{E} _{sigma}[sup _{|w|_2leqLambda}wsum _{i=1}^msigma_ix_i] \                              &leq frac{Lambda}{m}mathop{E} _sigma[|sum _{i=1}^msigma_ix_i|_2] \                              &leq frac{Lambda}{m}[mathop{E} _sigma[|sum _{i=1}^msigma_ix_i|_2^2]]^{1/2} \                              &= frac{Lambda}{m}[mathop{E} _sigma[sum _{i,j=1}^msigma_isigma_j(x_ix_j)]]^{1/2} \                              &leq frac{Lambda}{m}[sum _{i=1}^m|x_i|_2^2]^{1/2}\                              &leq frac{Lambdasqrt{mgamma^2}}{m}=sqrt{frac{gamma^2Lambda^2}{m}}end{align*}

为了给出generalization error 的界，我们先定义一些损失函数。

定义 2：边界损失函数。对任意$ ho>0$，$ ho$-margin函数 $L_ ho:mathbb{R} imesmathbb{R} ightarrowmathbb{R}_+$定义在所有$y,y'inmathbb{R}$且$L_ ho(y,y')=Phi_ ho(yy')$，其中：

egin{equation*} Phi_ ho(x)= egin{cases} 0 & if holeq x\   1-x/ ho & if 0leq xleq ho\   1 & if xleq 0 end{cases} end{equation*}

定义 3：经验边界损失。给定一个样本$S=(x_1,x_2,...,x_m)$和假设$h$，经验边界损失定义为：

$$widehat{mathcal{R}}_ ho(h) = frac{1}{m}sum _{i=1}^mPhi_ ho(y_ih(x_i))$$

注意，对任意$iin[1,m]$. $Phi_ ho(y_ih(x_i))leqmathbb{I}(y_ih(x_i)leq ho)$。因此，经验边界损失的上界定义为：

$$widehat{mathcal{R}}_ ho(h)leqfrac{1}{m}sum _{i=1}^mmathbb{I}(y_ih(x_i)leq ho)$$
1. 所有以 Empirical margin loss 为上界的结果店都可以用 Empirical margin loss 的上界替换，这个上界的意思：被错误分类以及分类的置信度小于$ ho$ 的点占总共点的比例。
2. $Phi_ ho$是$1/ ho-Lipschitz$连续。
引理 4.1 Talagrand's lemma。令$Phi:mathbb{R} ightarrowmathbb{R}$为$l-Lipschitz$。那么，对于任何的一个实值函数的假设集H，以下不等式成立：

$$widehat{mathfrak{R}}_S(Phicirc H)leq lwidehat{}mathfrak{R}_S(H)$$

证明：固定样本 $S=(x_1,x_2,...,x_m)$，通过定义：
egin{align*} widehat{mathfrak{R}}_S(Phicirc H)&=frac{1}{m}mathop{E}_sigma[sup_{hin H}sum_{i=1}^msigma_i(Phicirc H)(x_i)]\                          &=frac{1}{m}mathop{E}_{sigma_1,...,sigma_{m-1}}[mathop{E}_{sigma_m}[sup_{hin H}U_{m-1}(h)+sigma_m(Phicirc h)(x_m)]] end{align*}

其中$U_{m-1}(h)=sum_{i=1}^{m-1}sigma_i(Phicirc H)(x_i)$。

    通过supremum（最小的上界）定义可知：对$forall epsilon > 0$,存在$h_1,H-2in H$ 使下式成立

$$U_{m-1}(h_1) + (Phicirc h_1)(x_m)geq(1-epsilon)[sup_{hin H}U_{m-1}(h)+(Phicirc h)(x_m)]$$

$$U_{m-1}(h_2) - (Phicirc h_2)(x_m)geq(1-epsilon)[sup_{hin H}U_{m-1}(h)-(Phicirc h)(x_m)]$$

因此，对任意$epsilon > 0$，通过$E_{sigma_m}$的定义有

egin{eqnarray*} & &(1-epsilon)mathop{E}_{sigma_m}[sup_{hin H}U_{m-1}(h)+sigma_m(Phicirc h)(x_m)] \ &=&(1-epsilon)[frac{1}{2}sup_{hin H}U_{m-1}(h)+sigma_m(Phicirc h)(x_m)+frac{1}{2}sup_{hin H}U_{m-1}(h)-(Phicirc h)(x_m)]\ &leq&frac{1}{2}[U_{m-1}(h_1)+(Phicirc h_1)(x_m)]+frac{1}{2}[U_{m-1}(h_2)-(Phicirc h_2)(x_m)]end{eqnarray*}

令$S=sgn(h_1(x_m)-h_2(x_m))$,则根据$Phi$的$l-Lipschitz$可得：

egin{align*} |(Phicirc h_1)(x_m)-(Phicirc h_2)(x_m)|&leq l|h_1(x_m)-h_2(x_m)| \                                           &=sl(h_1(x_m)-h_2(x_m))end{align*}

故上面的不等式可继续放大：

egin{eqnarray*} & &(1-epsilon)mathop{E}_{sigma_m}[sup_{hin H}U_{m-1}(h)+sigma_m(Phicirc h)(x_m)] \ &leq&frac{1}{2}[U_{m-1}(h_1)+U_{m-1}(h_2)+sl(h_1(x_m)-h_2(x_m))]\ &=&frac{1}{2}[U_{m-1}(h_1)+slh_1(x_m)+U_{m-1}(h_2)-slh_2(x_m)]\ &leq&frac{1}{2}sup_{hin H}[U_{m-1}(h)+slh(x_m)]+frac{1}{2}sup_{hin H}[U_{m-1}(h)-slh(x_m)]\ &=&mathop{E}_{sigma_m}[sup_{hin H}U_{m-1}(h)+sigma_mlh(x_m)]end{eqnarray*}

由于上述不等式对所有$epsilon>0$都成立，故必有

$$mathop{E}_{sigma_m}[sup_{hin H}U_{m-1}(h)+sigma_m(Phicirc h)(x_m)]leq mathop{E}_{sigma_m}[sup_{hin H}U_{m-1}(h)+sigma_mlh(x_m)]$$

对于所有$i=1,...,m-1$使用上面不等式得：

egin{eqnarray*} & &frac{1}{m}mathop{E}_{sigma_1,...,sigma_m}[sup_{hin H}sum_{i=1}^msigma_i(Phicirc h)(x_i)]\ &leq&frac{1}{m}mathop{E}_{sigma_1,...,sigma_{m-1}}[mathop{E}_{sigma_m}[sup_{hin H}U_{m-1}(h)+sigma_mlh(x_m)]]\ &leq&frac{1}{m}mathop{E}_{sigma_1,...,sigma_{m-2}}[mathop{E}_{sigma_{m-1}sigma_m}[sup_{hin H}U_{m-2}(h)+sigma_{m-1}lh(x_{m-1})+sigma_mlh(x_m)]]\ & & ...\ &leq&frac{1}{m}mathop{E}_{sigma_1,...,sigma_m}[sup_{hin H}sigma_1lh(x_1)+sigma_2lh(x_2)+...+sigma_mlh(x_m)]\ &=&lwidehat{mathfrak{R}}_S(H)end{eqnarray*}

定理 4.3 Margin bound for binary classification。令H为实值函数的集合。固定$ ho>0$，那么，对于任意的$delta>0$，至少以概率$1-delta$，以下的每一个不等式对所有的$hin H$都成立：

$$mathcal{R}(h)leqwidehat{mathcal{R}}_ ho(h)+frac{2}{ ho}mathfrak{R}_m(H) + sqrt{frac{logfrac{1}{delta}}{2m}}$$

$$mathcal{R}(h)leqwidehat{mathcal{R}}_ ho(h)+frac{2}{ ho}widehat{mathfrak{R}}_S(H) +3sqrt{frac{logfrac{1}{delta}}{2m}}$$

证明：令$widetilde{H}={z=(x,y) ightarrow yh(x);hin H}$,考虑取值为$[0,1]$的函数族$widetilde{mathcal{H}}={Phi_ hocirc
f:finwidetilde{H}}$。根据定理2.1 有：$forall ginwidetilde{mathcal{H}}$，至少以概率$1-delta$下式成立：

$$E[g(z)]leqfrac{1}{m}sum_{i=1}^mg(z_i)+2mathfrak{R}_m(widetilde{mathcal{H}})+sqrt{frac{logfrac{1}{delta}}{2m}}$$

即$forall hin H$

$$E[Phi_ ho(yh(x))]leqwidehat{mathcal{R}}_ ho(h)+2mathfrak{R}_m(Phi_ hocirc widetilde{H})+sqrt{frac{logfrac{1}{delta}}{2m}}$$

又因为

$$mathcal{R}(h)=E[mathbb{I}(yh(x)leq 0)]leq E[Phi_ ho(yh(x))]( ext{由于}mathbb{I}(uleq 0)leqPhi_ ho(u))$$

故

$$mathcal{R}(h)leqwidehat{mathcal{R}}_ ho(h)+2mathfrak{R}(Phi_ hocirc widetilde{H})+sqrt{frac{logfrac{1}{delta}}{2m}}$$

由于$Phi_ ho$是$frac{1}{ ho}-Lipschitz$, 故$widetilde{mathfrak{R}}_S(Phi_ hocirc widehat{H})leqfrac{1}{ ho}widehat{mathfrak{R}}_S(widetilde{H})$对$forall S$成立。

    所以

$$mathfrak{R}_m(Phi_ hocirc widetilde{H})=mathop{E}_S[widehat{mathfrak{R}}_S(Phi_ hocirc widetilde{H})]leqfrac{1}{ ho}mathop{E}_S[widetilde{mathfrak{R}}_S(widetilde{H})]=mathfrak{R}(widetilde{H})$$

又因为

$$mathfrak{R}_m(widetilde{H})=frac{1}{m}mathop{E}_{S,sigma}[sup_{hin H}sum_{i=1}^msigma_iy_ih(x_i)]=frac{1}{m}mathop{E}_{S,sigma}[sup_{hin H}sum_{i=1}^msigma_ih(x_i)]=mathfrak{R}_m(H)$$

所以

$$mathcal{R}(h)leq widehat{mathcal{R}}_ ho(h) + frac{2}{ ho}mathfrak{R}_m(H) +sqrt{frac{logfrac{1}{delta}}{2m}}$$

对于第二个不等式用引理2.1 的第二个不等式也可得到。

三、基于margin的分析

    首先，我们将Boosting产生的最后组合分类器写成$g=sum_{t=1}^Talpha_th_t riangleqalphacdot h(x)$, 其中$alpha=(alpha_1,alpha_2,...,alpha_T)^T$, $h(x)=(h_1(x),h_2(x),...,h_T(x))^T$。然后定义Boosting中的Margin。

定义 4：$L_1$-margin。The $L_1$-margin $ ho(x)$ of a point $xin mathcal{X}$,with label $yin{-1,+1}$ for a linear combination of base classifiers$g=sum_{t=1}^Talpha_th_t$ with $alpha eq 0$ and $h_tin H$ for all $tin[1,T]$ is defined as
$$ ho(x)=frac{yg(x)}{sum_{t=1}^T|alpha_t|}=yfrac{alphacdot h(x)}{|alpha|_1}$$
The $L_1$-margin of a linear combination classifier g with respect to a sample $S=(x_1,x_2,...,x_m)$ is the minimum margin of the points within the sample:
$$ ho=min_{iin[1,m]}y_ifrac{alphacdot h(x_i)}{|alpha|_1}$$
1. 当$alpha_tgeq0$ （AdaBoost 中 $alpha_tgeq0$）时， $ ho(x)$ 是 $yh_1(x),yh_2(x),...,yh_t(x)$ 的凸组合，且当$h_t$取值为$[-1,+1]$时$ ho(x)$的取值也为$[-1,+1]$，而$| ho(x)|$可看成分类器$g(x)=sum_{t=1}^Talpha_th_t(x)$将$x$分成$y$的置信程度。
2. 将上述margin与svm中的margin比较。SVM中的margin定义在$l_2-norm$中，这里的margin定义在$l_1-norm$中。
  $$ ho_1(x)=frac{|alphacdot h(x)|}{|alpha|_1} ho_2(x)=frac{|alphacdot h(x)|}{|alpha|_2}$$
  当$p,qgeq 1$, 且 $1/p+1/q=1$时，p与q互为共轭，且点x到超名面$alphacdot x=0$的$L_q$距离为$|alphacdot x/|alpha|_p$。也就是说$ ho_2(x)$为点到超平面$alphacdot x=0$的$l_2$距离，即欧式距离；$ ho_1(x)$为点到超平面$alphacdot x=0$的$l_infty$距离。（点到$l_2$距离表示，这个点到垂点的直线距离；点到超平面的$l_infty$距离表示，这个点到垂点的坐标相差最大的距离。）
接下去，分两步讲解。第一，分析假设集的凸组合形成的Rademacher complexity; 第二，使用margin理论分析Boosting。

    定义$conv(H)$, 对于任意假设集H，

$$conv(H)={sum_{k=1}^pmu_kh_k:pgeq1,forall kin[1,p],mu_kgeq0,h_kin H,sum_{k=1}^p=1}$$

定理 4.4 令H为从$mathcal{X}$ 到 $mathbb{R}$的函数集合。那么，对任意的样本S，我们有：

egin{equation}label{equ:10}widehat{mathfrak{R}}_S(conv(H))=widehat{mathfrak{R}}_S(H)end{equation}

证明：

egin{align}widehat{mathfrak{R}}_S(conv(H))&=frac{1}{m}mathop{E}_sigma[sup_{h_1,...,h_pin H,mugeq0,|mu|_1=1}sum_{i=1}^msigma_isum_{k=1}^pmu_kh_k(x_i)] onumber\                                  &=frac{1}{m}mathop{E}_sigma[sup_{h_1,...,h_pin H,mugeq0}sup_{|mu|_1=1}sum_{k=1}^pmu_ksum_{i=1}^msigma_ih_k(x_i)] onumber\                                 &=frac{1}{m}mathop{E}_sigma[sup_{h_1,...,h_pin H}max_{kin[1,p]}(sum_{i=1}^msigma_ih_k(x_i))] label{equ:11}\                                  &=frac{1}{m}mathop{E}_sigma[sup_{hin H}sum_{i=1}^msigma_ih(x_i)]=widehat{mathfrak{R}}_S(H) end{align}
等式 ef{equ:11}成立是因为凸组合的最大值就是将所有权重都分配给值最大的那一点。

上述等式 ef{equ:10}成立，说明：
$$ mathfrak{R}_m(conv(H))=mathop{E}_{S}[widehat{mathfrak{R}}_S(conv(H))]=mathop{E}_S[widehat{mathfrak{R}}_S(H)]=mathfrak{R}_m(H)$$
将定理4.3 应用与此，可得推论4.1。

推论 4.1：Ensemble Rademacher margin bound。令H为一个实值函数的集合。固定$ ho>0$。那么，对任意的$delta>0$，至少以概率$1-delta$以下的每一个不等式在所有的$hin conv(H)$下都成立：

$$mathcal{R}(h)leq widehat{mathcal{R}}_ ho(h)+frac{2}{ ho}mathfrak{R}_m(H)+sqrt{frac{logfrac{1}{delta}}{2m}}$$

$$mathcal{R}(h)leq widehat{mathcal{R}}_ ho(h)+frac{2}{ ho}widehat{mathfrak{R}}_S(H)+3sqrt{frac{logfrac{2}{delta}}{2m}}$$

结合推论2.1 推论2.3 以及定理4.3 ，可以得到以下推论：

推论 4.2 Ensemble VC-Dimension margin bound。令H为取值为${+1,-1}$ VC维为d的函数族。固定$ ho>0$。那么，对任意的$delta>0$，至少以概率$1-delta$以下的每一个不等式在所有的$hin conv(H)$下都成立：

$$mathcal{R}(h)leq widehat{mathcal{R}}_ ho(h)+frac{2}{ ho}sqrt{frac{2dlogfrac{em}{d}}{m}}+sqrt{frac{logfrac{1}{delta}}{2m}}$$

    凸组合要求所有系数相加等于1，但AdaBoost产生的系数$alpha_t$，虽然能保证其值大于0，但$sum_{i=1}^Talpha_t$不一定等于1.所以，我们必须对系数进行归一化。令$g=sum_{t=1}^Talpha_th_t$为AdaBoost在跑了T步后返回的分类器，将其归一化为：$frac{g}{|alpha|_1}=sum_{t-1}^Tfrac{alpha_t}{|alpha|_1h_t}in conv(H)$由于$sgn(g)=sgn(g/|alpha|_1)$, 因此$mathcal{R}(g)=mathcal{R}(g/|alpha|_1)$，但$widehat{mathcal{R}}_ ho(g) eq widehat{mathcal{R}}_ ho(g/|alpha|_1)$。

所以根据推论4.1 和推论4.2有：

egin{align*} mathcal{R}(g)=mathcal{R}(g/|alpha|_1) &leq widehat{mathcal{R}}_ ho(g/|alpha|_1)+frac{2}{ ho}mathfrak{R}_m(H)+sqrt{frac{logfrac{1}{delta}}{2m}} \ mathcal{R}(g)=mathcal{R}(g/|alpha|_1) &leq widehat{mathcal{R}}_ ho(g/|alpha|_1)+frac{2}{ ho}widehat{mathfrak{R}}_S(H)+3sqrt{frac{logfrac{2}{delta}}{2m}} \ mathcal{R}(g)=mathcal{R}(g/|alpha|_1) &leq widehat{mathcal{R}}_ ho(g/|alpha|_1)+frac{2}{ ho}sqrt{frac{2dlogfrac{em}{d}}{m}}+sqrt{frac{logfrac{1}{delta}}{2m}}end{align*}

从 $widehat{mathcal{R}}(h)$ 的定义，我们可以知道：

$$widehat{mathcal{R}}_ ho(g/|alpha|_1)leqfrac{1}{m}sum_{i=1}^mmathbb{I}(y_ig(x_i)/|alpha|_1leq ho)$$

因此可以证明以下定理：

定理 4.5： 令$g=sum_{t=1}^Talpha_th_t$表示AdaBoost经过T步后返回的分类器函数，假设对所有的$tin[1,T]$，$epsilon_t<frac{1}{2}$，也就是说$alpha_t>0$。那么，对任意$ ho>0$，以下不等式成立：

$$widehat{mathcal{R}}_ ho(frac{g}{| alpha |_1})leq 2^T prod_{t=1}^Tsqrt{epsilon_t^{1- ho}(1-epsilon_t)^{1+ ho}}$$

证明：

egin{align*} widehat{mathcal{R}}_ ho(frac{g}{| alpha |_1}) &leq frac{1}{m}sum_{i=1}^mmathbb{I}(y_ig(x_i)- ho| alpha |_1leq 0) \          &leq frac{1}{m}sum_{i=1}^m exp(-y_ig(x_i)+ ho| alpha |_1) \                   &=    frac{1}{m}sum_{i=1}^m exp( ho | alpha |_1)[mprod_{t=1}^TZ_t]D_{T+1}(i) \               &=    e^{ ho | alpha |_1}prod_{t=1}^TZ_t = e^{ hosum_ialpha_i}prod_{t=1}^TZ_t \                                                      &=    e^{ hosum_ifrac{1}{2}logfrac{1-epsilon_t}{epsilon_t}}prod_{t=1}^T2sqrt{epsilon_t(1-epsilon_t)} \                                                     &=    2^Tprod_{t=1}^T[sqrt{frac{1-epsilon_t}{epsilon_t}}]^ ho sqrt{epsilon_t(1-epsilon_t)} \                                                      &=    2^Tprod_{t=1}^Tsqrt{epsilon_t^{1- ho}(1-epsilon_t)^{1+ ho}} \                                                      &=    prod_{t=1}^Tsqrt{4epsilon_t^{1- ho}(1-epsilon_t)^1+ ho}end{align*}

说明：

（1）、若对所有$tin[1,T]$, $gamma leq (frac{1}{2}-epsilon_t)$ 且 $ holeq 2gamma$都成立的话。函数 $f(epsilon_t)=4epsilon_t^{1- ho}(1-epsilon_t)^{1+ ho}$ 在 $epsilon_t=frac{1}{2}-gamma$时取最大值。即$$ widehat{mathcal{R}}_ ho(frac{g}{| alpha |_1})leq [(1-2gamma)^{1- ho}(1+2gamma)^{1+ ho}]^{T/2}$$

当 $sqrt{(1-2gamma)^{1- ho}(1+2gamma)^{1+ ho}}<1$, 即 $ ho < heta(gamma) riangleq frac{-ln(1-4gamma^2)}{ln(frac{1+2gamma}{1-2gamma})}$时 $widehat{mathcal{R}}_ ho(frac{g}{| alpha |_1})$以指数级下降。并且由于
$$ widehat{mathcal{R}}_ ho(frac{g}{| alpha |_1}) leq frac{1}{m}sum_{i=1}^mmathbb{I}(y_ig(x_i)- ho| alpha |_1leq 0)$$
右边的式子总是$frac{1}{m}$的倍数，即当T足够大时，右边总是会达到0。也就是说，对所有样本，其margin都大于$ ho$，即margin至少为$ heta(gamma)$，或者说以$ heta(gamma)$为界。

所以当T达到一定数量时，$ heta(gamma)$为训练集的最小margin。

（2）、由$ heta(gamma)$的表达式可知，当 $gamma$越大时$ heta(gamma)$越大，即最小的margin越大。更进一步说，如果每一步的边$gamma_t$越大，最小的margin也越大。这就将边与margin的关系联系起来了。

（3）这也解释了为什么AdaBoost不容一产生Overfit，即使训练错误为0，增加步数也能降低预测错误（因为margin在增大，也就是说置信度在增大）。
查看全文

相关阅读:
Sublime Text shift+ctrl妙用（转载）
编写一致的符合习惯的javascript
Vue 部署单页应用，刷新页面 404/502 报错
 http 缓存策略浅析
 Vue 项目优化，持续更新...
web安全之——XSS、CSRF
javascript 易错知识点合集
 深入理解 js this 绑定机制
 javascript 模块依赖管理的本质
 VUE 项目刷新路由指向index.html

原文地址：https://www.cnblogs.com/boostable/p/foundationsOfML_margin_theroy.html