【机器学习详解】SMO算法剖析（转载）

zoukankan html css js c++ java

【机器学习详解】SMO算法剖析（转载）
【机器学习详解】SMO算法剖析

转载请注明出处：http://blog.csdn.net/luoshixian099/article/details/51227754

CSDN−勿在浮沙筑高台

本文力求简化SMO的算法思想，毕竟自己理解有限，无奈还是要拿一堆公式推来推去，但是静下心看完本篇并随手推导，你会迎刃而解的。推荐参看SMO原文中的伪代码。

1.SMO概念

上一篇博客已经详细介绍了SVM原理，为了方便求解，把原始最优化问题转化成了其对偶问题，因为对偶问题是一个凸二次规划问题，这样的凸二次规划问题具有全局最优解，如下：

其中

2.SMO原理分析

2.1视为一个二元函数

为了求解N个参数

min Ψ(α1,α2)=12K11α21+12K22α22+y1y2K12α1α2−(α1+α2)+y1v1α1+y2v2α2+Constant(1)

其中

2.2视为一元函数

由等式约束得：

α1=(ζ−y2α2)y1(2)

min Ψ(α2)=12K11(ζ−α2y2)2+12K22α22+y2K12(ζ−α2y2)α2−(ζ−α2y2)y1−α2+v1(ζ−α2y2)+y2v2α2(3)

2.3对一元函数求极值点

上式中是关于变量

1.由上式中假设求得了
$ζ = α o l d 1 y 1 + α o l d 2 y 2$
2.假设SVM超平面的模型为 $E i = f (x i) - y i$ $v 1 = f (x 1) - \sum j = 1 2 y j α j K 1 j - b$ $v 2 = f (x 2) - \sum j = 1 2 y j α j K 2 j - b$

把(4)(6)(7)带入下式中：

αnew,unclipped2=αold2+y2(E1−E2)η(8)

2.4对原始解修剪

上述求出的解未考虑到约束条件：
在二维平面上直观表达上述两个约束条件

最优解必须要在方框内且在直线上取得，因此

αnew2=⎧⎩⎨⎪⎪⎪⎪ H ,αnew,unclipped2>Hαnew,unclipped2,L⩽αnew,unclipped2⩽H L ,αnew,unclipped2<L

2.5求解

由于其他N-2个变量固定，因此

αnew1=αold1+y1y2(αold2−αnew2)(9)

2.6取临界情况

大部分情况下，有
也可以如下理解，对(3)式求二阶导数就是

带入目标函数(1)内，比较

3.启发式选择变量

上述分析是在从N个变量中已经选出两个变量进行优化的方法，下面分析如何高效地选择两个变量进行优化，使得目标函数下降的最快。

第一个变量的选择

第一个变量的选择称为外循环，首先遍历整个样本集，选择违反KKT条件的

第二个变量的选择

SMO称第二个变量的选择过程为内循环，假设在外循环中找个第一个变量记为

首先在非边界集上选择能够使函数值足够下降的样本作为第二个变量，
如果非边界集上没有，则在整个样本集上选择第二个变量，
如果整个样本集依然不存在，则重新选择第一个变量。

4.阈值b的计算

每完成对两个变量的优化后，要对b的值进行更新，因为b的值关系到f(x)的计算，即关系到下次优化时

bnew1=y1−∑i=3NαiyiKi1−αnew1y1K11−αnew2y2K21

y1−∑i=3NαiyiKi1=−E1+αold1y1K11+αold2y2K11+bold

bnew1=−E1−y1K11(αnew1−αold1)−y2K21(αnew2−αold2)+bold

bnew2=−E2−y1K12(αnew1−αold1)−y2K22(αnew2−αold2)+bold

建议参看SMO原文的伪代码

参考：
统计学习方法，李航
Sequential Minimal Optimization:A Fast Algorithm for Training Support Vector Machines，John C. Platt
http://www.cnblogs.com/jerrylead/archive/2011/03/18/1988419.html
查看全文