zoukankan      html  css  js  c++  java
  • (一)SVM原理

    前言

    本文开始主要介绍一下SVM的分类原理以及SVM的数学导出和SVM在Python上的实现。借鉴了许多文章,会在后面一一指出,如果有什么不对的希望能指正。

    一、 SVM简介

    首先看到SVM是在斯坦福的机器学习课程上,SVM是作为分类器在logisticregression的基础上引出的。

    其学习方法是把数据映射到一个高维空间上,使数据变稀疏,比较容易找到一个分割面来将数据分类,

    而这个高维的分割面就是超平面。而SVM做的就是找到这样一个超平面使得数据点离这个超平面尽可能的远,

    这样的分类效果才会好。

    1、SVM起源Logistic回归(逻辑回归)

    我也准备利用逻辑回归来引出SVM。首先我们要先理解什么是线性分类器,

    线性分类器就是通过特征的线性组合作为自变量,

    由于自变量的取值范围是负无穷到正无穷,因此通过sigmoid函数(这个函数的主要目的就是为了映射)映射到(0,1)上,

    得到属于y =1的概率,概率超过50%就定义为y=1。

    Logistic回归就是要学习得到θ,使得正例的特征远大于0,负例的特征远小于0,而且要在全部训练实例上达到这个目标。

    这就是最简单的一个线性分类过程,关于Logistic的详细过程请看我的其他博文。

    2、SVM的分类思想


     

    为了看起来方便我们将SVM的思想从一个二维的空间解释,上面的红绿点表示了两类数据,

    我们可以发现有很多的线(高维就是超平面)都可以将这两类分开,

    但是哪一种才是最好的呢?SVM想的是找到这样一个超平面:尽量使得正例反例之间的间隔最大,

    只希望离这个超平面近的点离平面越远越好,而不用所有点都离超平面很远,简单说就是只考虑局部就可以了。

    那么怎么衡量这个间隔呢?就是求点到面的距离就可以。

     

    3、为了引出SVM需要进行变形(本质上是为了看起来方便)

    可以看出其实SVM也是一个找线性组合的系数的过程,因为系数的本质就是这个超平面。

    为了进行SVM的计算我们要对Logistic提出的模型进行一些调整:

    (1)把分类标签从(0,1)变到了(-1,1)(为什么后面会提到)

    (2)将系数替换成w和b。 认为并替换为b,其他的变为w,

      也就是

    (3)改变了映射函数: ,g()就是上面提到的映射函数,变成下面这种:

     

     

     

     

      映射函数的目的就是为了让结果看上去更规整,其实真正起决定意义的还是的正负决定了分类结果。

    所以简单的将映射函数定义为-1或是+1也就是说,现在除了标签变化外,与logistic回归并没什么太大区别。

    4、间隔的计算

    经过了上面的一些转换,我们开始尝试计算间隔。好多文章在讲解这一部分的时候都是讲了函数间隔(functional margin)和几何间隔(geometric margin),

    我个人感觉这样讲有点舍近求远。首先先用一个例子先把函数都表示出来。下面是一个分类表达的图,超平面可以用一个分类函数表示,f(x) =0表示x是处于超平面上的点,通过映射函数映射f(x)大于0被映射为y=+1,小于0则映射为y=-1。怎么表示分类正确呢?很明显只要y* f(x)是正的就可以了。

     

    有了这个超平面的表达式我们就可以利用学过的知识计算点到平面的距离了。


     

    把上面的公式去掉绝对值,定义到高维空间不难看出这其实就是:


        
    为了达到上面公式中的绝对值效果,只要乘上y就可以了也就是:


     

    上式得到的就是几何间隔,也就是点到平面的距离。分子上的就是函数间隔。

    5、最优间隔分类器(optimal margin classifier)

    我们已经得到了点到超平面距离的公式了,接下来就只要找到那个能够分割的超平面就可以了。前面已经说过,

    只要数据点中离超平面最近的这个点离超平面远就可以(也就是其他点更远)。这其实是两个条件,一个是要max这

    个最近距离,另一个约束条件是定义离超平面最近的点。

    第一个目标函数可以定义为:

            

    约束条件可以定义为:

     

     

    这里解释一下这个约束条件,因为所有点对应的是同一个超平面,相对的w和b是不变的,所以只要比较函数

    间隔就可以了。

    进一步通过变量替换约束条件两边同时除以函数间隔也就是:


    经过变换推倒一下,其实这个就是其他文章经常说的可以令函数间隔为1的原因,其实目的就是为了简化计算。

    再将目标函数经过取倒数、平方等等价计算,这样就推出我们常见的SVM的格式:


     

    这样的变化相对于前面未变化的表达来说有一个好处:这样是个典型的二次规划问题(目标函数是自变量的二次函数)

    ,就可以用软件求解了。

    上面所有总结为下面的直观的表示,中间的实线就是寻找到的最优超平面,超平面到两条虚线的距离相等,

    这个距离就是我们几何间隔,而虚线上的点就是我们说的支持向量,我们看出这些支持向量满足

    (在函数间隔定义为1的情况下),而对于不是支持向量的点,满足约束条件,这时也看出来当时定

    义标签为+1和-1比较直观。


     

    注:我们虽然定义了标签为+1,-1但也不是必须这样,比如我们定义标签为a和b,但是只要对约束条件进行相应变化

    就好将上面公式中提到的y变为

    (y-(a+b)/2)*((b-a)/2)

    就可以了,其实并没有什么本质改变。


    主要参考了:

    http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html

    http://blog.csdn.net/v_july_v/article/details/7624837      (最全面)

    http://blog.csdn.net/zouxy09/article/details/17291543

     

     

    转自:http://blog.csdn.net/woaidapaopao/article/details/52664833

     

  • 相关阅读:
    团队项目博客---移山小分队---10
    个人项目博客----移山小分队----09
    团队项目博客---移山小分队---9
    个人项目博客----移山小分队----08
    团队项目博客---移山小分队---8
    个人项目博客----移山小分队----07
    团队项目博客---移山小分队---7
    浪潮之巅阅读笔记06
    浪潮之巅阅读笔记05
    构建之法阅读笔记03
  • 原文地址:https://www.cnblogs.com/wyuzl/p/7723251.html
Copyright © 2011-2022 走看看