支持向量机（SVM）算法分析——周志华的西瓜书学习

zoukankan html css js c++ java

支持向量机（SVM）算法分析——周志华的西瓜书学习

1.线性可分

对于一个数据集：

$egin{array}{l} D = { ({x_1},{y_1}),...,({x_m},{y_m})} \ {x_i} in X subseteq {R^d},{y_i} in { m{Y = { - }}1,1{ m{} }} end{array}$

如果存在一个超平面X能够将D中的正负样本精确地划分到S的两侧，超平面如下：

那么数据集D就是线性可分的，否则，不可分。

w称为法向量，决定了超平面的方向；b为位移量，决定了超平面与原点的距离。

样本空间中的任意点x到超平面X的距离（不太熟悉的可以复习高数中空间几何那一章的内容）可以写为：

使得下面两式成立的训练样本 ${x_i}$ 称为支持向量：

两个异类支持向量（一个等于+1，一个等于-1）到超平面的距离之和为:

它称之为“间隔”

想找到最大间隔的划分超平面，就是使 $gamma$ 最大：

等价于：

这就是支持向量机的基本模型。

对偶问题：

上式的拉格朗日函数可写为：

其中， ${alpha _i} ge 0$

对参数w和b求导可得：

将上式带入到拉格朗日函数中，消去w和b,得到对偶表达式：

采用SMO算法完成对偶问题的求解：

原始论文地址：http://www-ai.cs.uni-dortmund.de/LEHRE/SEMINARE/SS09/AKTARBEITENDESDM/FOLIEN/Joerg_Nitschke_Sequential_minimal_optimization.pdf

核函数：

对于非线性可分的训练样本通过核函数将原始空间映射到更高维的特征空间来使得样本线性可分。

令 $phi (x)$ 表示x映射后的特征向量，那么新的模型可以表示为：

可以得出：

对偶问题表示为：

这里涉及到 $phi {({x_i})^T}phi ({x_j})$ ，这是样本 ${x_i}$ 和 ${x_j}$ 映射到高维特征空间后的內积，我们不直接计算 $phi {({x_i})^T}phi ({x_j})$ ，设计一个函数：

重写为：

求解出 $alpha$ ，即可求出模型：

我会在优化理论里面更仔细地分析核函数。

软间隔和正则化：

软间隔允许某些样本不满足 ${y_i}({w^T}{x_i} + b) ge 1$ 约束，优化目标可以改写为：

${ell _{0/1}}$ 是非凸、非连续的函数，采用其他函数来代替 ${ell _{0/1}}$ ，称为surrogate loss。通常surrogate loss是凸的连续函数且是 ${ell _{0/1}}$ 的上界。下面有三种常用的代理损失函数：

若采用hinge损失：

引入松弛变量 ${xi _i}({xi _i} ge 0)$ ：

得到拉格朗日函数：

其中 ${alpha _i} ge 0,{mu _i} ge 0$ 是拉格朗日乘子。

对偶问题：

查看全文

相关阅读:
【摄影】EOS 6D通过WIFI连接手机
 【Teradata SQL】dayofyear与td_day_of_year函数区别
 【PS技巧】如何修人物的脸型
 【Teradata数据保护机制】锁
 【数据库】SQL标准定义的四个事务隔离级别
 【TD函数】Teradata正则表达式函数
 Teradata复杂视图跨库访问权限问题
 CPU芯片组与总线
 单核CPU、多个CPU（路）、超线程技术、多核CPU（物理核、逻辑核）
Idea删除当前类所有的注释

原文地址：https://www.cnblogs.com/wzdLY/p/9577121.html