zoukankan      html  css  js  c++  java
  • 吴恩达《机器学习》第十二章:支持向量机SVM

    十二、支持向量机

    12.1 优化目标

    SVM:support vector machine;
    在这里插入图片描述
    在这里插入图片描述
    把代价函数分成两部分,比如左边:hθ(X)=1/(1+e-z),当z趋向于很大的数时,hθ(X)才能取到1;

    支持向量机:

    • 取出1/m,惯例不同而已,1/m不影响θ的结果;
      在这里插入图片描述
      这是支持向量机的总体代价函数:
      在这里插入图片描述

    12.2 大边界的直观理解

    支持向量机=大间距分类器?
    什么是向量机,我们如何理解它,有什么作用?
    在这里插入图片描述
    假设C非常大,那么我们优化代价函数只需将A部分尽力优化成0即可,那么可做出如下假设:
    假设A被优化成0:
    在这里插入图片描述
    比如:
    在这里插入图片描述
           ~~~~~~       未使用支持向量机时,决策边界可能是紫色的或者绿色的那条,可以看出它们非常贴近数据集;
           ~~~~~~       而使用支持向量机画出的决策边界的间距(黑色线),很明显拥有更大的间距,能够更好的夹在两个数据集中间;
           ~~~~~~       更大间距->更好的鲁棒性

    在这里插入图片描述        ~~~~~~       当C非常大的时候,决策边界会对某个异常点敏感,比如没有左下角的红×时,决策边界是黑线,当加上那么一个异常点时,决策边界可能立马变为紫色的线;而这都是基于C很大的情况;

    如果C很小,那么决策边界并不会对某个或者一些异常点敏感,比如上面正集混入一些负集等等,它还是能划出一条合理的分类边界;

    所以C的取值问题才是SVM的核心,C取得不那么大时,才能既有大边界又能对某个/些异常数据不敏感;

    12.3 数学背后的大边界分类

    为什么这么优化呢?如何得到大间距分类器的?
    更好地理解SVM;

    在这里插入图片描述
    欧几里得长度;
    vTu内积=v在u上的投影长度*u的长度;
    p是有符号的;
    在这里插入图片描述
    当C取很大得值时,A部分就要最小化为0,此时代价函数=1/2||θ||2
    在这里插入图片描述
           ~~~~~~       z=0时,假如边界函数如绿色线所示,θ与决策边界垂直,那么对于x(1)和x(2),它们在θ上的投影长度都很小,那么为了满足条件p(i)·||θ|| ≥1或者p(i)·||θ||≤-1,则||θ||就要取很大的值,这与之前最小化代价函数(1/2||θ||2)相矛盾;

    在这里插入图片描述

    支持向量机试图让p(i)(训练样本到决策边界的距离)变得足够大,从而让θ的范数变小,最小化代价函数;
    这就是SVM如何产生大间距分类现象的;

    12.4 (高斯)核函数1

    非线性决策边界
    本节问题:

    • 什么是高斯核函数?
    • 运行机理
      在这里插入图片描述
      f(i)表示相似度;
      相似度的度量=>相似函数=>核函数=>高斯核函数=>k(x,l(i));
      在这里插入图片描述
      给定一标记点 l1,如果样本x距离 l1 近,那么这个f1的值接近于1,隔得越远,越接近0;

    在这里插入图片描述
    σ是高斯核函数的参数,σ越大收敛越慢;
    在这里插入图片描述

    12.5 (高斯)核函数2

    本节问题

    • 如何求解这个相似方程?
    • 标记点如何设置?

    使用SVM+Kernels
    在这里插入图片描述
    有m个样本就选m个标记点;将计算出的m个相似度合成相似度向量 ( +f0 就是m+1维);
    在这里插入图片描述
    在这里插入图片描述
    低偏差、高方差就是图像有较大的斜率,不那么平滑;
    高偏差、低方差就是图像较平滑;
    高斯分布=>正态分布;

    12.6 使用支持向量机

    本节问题:

    • 如何使用SVM软件进行求解;
    • 如何选择一个合适的核函数;

    支持向量机并不能很好的应用在逻辑回归;

    C的选择、核函数的选择;
    在这里插入图片描述
    计算核函数的向量值;
    在这里插入图片描述
    进行特征缩放,放置特征中量级较大的特征过度影响||v||2
    在这里插入图片描述
    核函数应该要满足的条件(并不是所有的函数都能作为核函数):
    Mercer定理

    其它核函数:

    • 多项式核函数;一般表现较差 ,用的不多;
    • 卡方核函数;
    • 字符串核函数

    多分类问题:
    在这里插入图片描述
    在这里插入图片描述
    SVM是一种凸优化,不用担心局部最优;
    SVM比神经网络快,它是一种体系,一个有效的方法去学习复杂的非线性函数;

  • 相关阅读:
    mysql 异常处理实例
    Fix java version mismatch in windows---stackoverflow
    Building Tomcat7 source step by step---官方文档
    三个大数据处理框架:Storm,Spark和Samza 介绍比较
    Apache Samza流处理框架介绍——kafka+LevelDB的Key/Value数据库来存储历史消息+?
    mongodb停止遇到shutdownServer failed: unauthorized: this command must run from localhost when running db without auth解决方法
    mongodb集群——配置服务器放分片meta信息,说明meta里包含了哪些数据信息
    MongoDB 3.0 WiredTiger Compression and Performance
    mongodb 压缩——3.0+支持zlib和snappy
    wukong搜索引擎源码解读
  • 原文地址:https://www.cnblogs.com/Luweir/p/14147214.html
Copyright © 2011-2022 走看看