zoukankan      html  css  js  c++  java
  • 《机器学习》第二次作业——第四章学习记录和心得

    第四章学习记录和心得

    4.1 线性判据基本概念

    判别模型:给定训练样本({x_n}),直接在输入空间内估计后验概率(p(C_i|x))

    1. 优势: 快速直接、省去了耗时的高维观测似然概率估计。

    线性判据

    定义: 如果判别模型f(x)是线性函数,则f(x)为线性判据。

    • 可以用于两类分类,决策边界是线性的。
    • 也可以用于多类分类,相邻两类之间的决策边界也是线性的。

    image-20210523093239883

    image-20210526152032382

    image-20210526152102874

    4.2 线性判据学习概述

    image-20210523100017423

    image-20210526152237709

    4.3 并行感知机算法

    并行感知机

    • 预处理

    image-20210526152348993

    image-20210526152437245

    对目标函数求偏导

    image-20210526152504163

    • 梯度下降法

    image-20210526152551503

    image-20210526152632397

    image-20210526152610470

    4.4 串行感知机算法

    • 适合情况: 训练样本是一个个串行给出的。
    • 目标函数:

    image-20210526153043429

    目标函数求解

    image-20210526153119467

    image-20210526153134582

    收敛性:如果训练样本是线性可分的,感知机(并行和串行)算法理论上收敛于一个解。

    image-20210526153217398

    • 提高感知机泛化能力
    • 问题:当样本位于决策边界边缘时,对该样本的决策有很大的不确定性
    • 解决思路:

    image-20210526153301258

    • 目标函数

    image-20210526153330216

    • 目标函数求解

    image-20210526153351012

    4.5 Fisher线性判据

    image-20210524214647755

    image-20210524214023763

    image-20210526153505455

    • 目标函数新表达

    image-20210526153535492

    image-20210524214037323

    最优解

    image-20210524214628605

    4.6 支持向量机基本概念

    • 设计思想: 给定一组训练样本,使得两个类中与决策边界最近的训练样本到决策边界之间的间隔最大。

    image-20210524214810320

    image-20210524214820715

    image-20210526153719566

    4.7 拉格朗日乘数法

    image-20210526153754488

    image-20210526153916546

    image-20210526153932162

    image-20210526153951974

    image-20210526154028569

    image-20210526154048176

    image-20210526154119151

    4.8 拉格朗日对偶问题

    image-20210524215625896

    • 主问题难以求解或者是NP难问题

    • 解决方案: 求解对偶问题

    image-20210524215713946

    • 对偶问题给出了主问题最优解的下界

    image-20210526154225631

    image-20210526154243719

    4.9 支持向量机学习算法

    image-20210524220102812

    image-20210524220130262

    image-20210524222516128

    • 该问题是一个二次优化问题,可以直接调用相关算法求解

    image-20210525163636536

    image-20210525163705816

    image-20210525163926327

    4.10 软间隔支持向量机

    有些训练样本带有噪声或者是离群点.如果严格限制所有样本都在间隔区域之外,噪声点可能被选做支持向量,使得决策边界过于拟合噪声。

    解决方案: 软间隔SVM

    image-20210525163650054

    image-20210526154837054

    image-20210525163956636

    image-20210525164005207

    4.11 线性判据多类分类

    • 多类分类的本质:非线性

      可以通过多个线性模型组合的途径实现多类分类

    • one-to-all 策略

    image-20210526154934258

    image-20210525164519722

    存在混淆区域

    image-20210526155006454

    • 线性机

    image-20210525164608642

    image-20210526155059077

    one-to-one策略

    image-20210525164751391

    4.12 线性回归

    image-20210525165059527

    image-20210525165106376

    • 目标函数: 均方误差

    image-20210526155217321

    image-20210525165605659

    使用梯度下降法求解

    image-20210525165614654

    得出最优解(W=(x^TX)^{-1}X^TT)

    4.13 逻辑回归的概念

    • 如果两个类别数据分布的协方差矩阵相同,则MAP分类器的决策边界是一个超平面,即线性。MAP分类器等同于一个线性判据,可见,MAP分类器可以在线性和非线性之间切换,为我们将线性模型改进成非线性模型提供了思路。
    1. Logit变换

    image-20210526085015085

    image-20210526085111024

    image-20210526085136419

    在每类数据是高斯分布且协方差矩阵相同的情况下,x属于C1类的后验概率与属于C2类的后验概率之间的对数比率就是线性模型f(x)的输出。

    image-20210526085247747

    由于Logit变换等同于线性判据的输出,所以在此情况下Logit(z)是线性的。

    image-20210526085427856

    • Sigmoid函数

    image-20210526085549066

    • 逻辑回归

    image-20210526085632022

    • 决策过程:

    image-20210526085702967

    单个逻辑回归就是一个神经元模型

    • 总结
    1. 逻辑回归本身是一个非线性模型。
    2. 逻辑回归用于分类:仍然只能处理两个类别线性可分的情况。但是,sigmoid函数输出了后验概率,使得逻辑回归成为一个非线性模型。因此,逻辑回归比线性模型向前迈进了一步。
    3. 逻辑回归用于拟合:可以拟合有限的非线性曲线。

    image-20210526090032488

    4.14 逻辑回归的学习

    • 学什么:给定训练样本,学习参数w和(w_0)
    • image-20210526091521695

    image-20210526093542155

    针对训练样本((x_n,t_n)),如果模型输出概率较低,说明参数不是最优的

    • 似然函数

    image-20210526094000748

    image-20210526094018356

    image-20210526094040151

    • 交叉熵

    image-20210526094132988

    image-20210526094148194

    • 使用梯度下降法对目标函数优化

    image-20210526094223881

    image-20210526094306077

    image-20210526094506950

    image-20210526094528228

    • 当y = wTx+w0较大时,sigmoid函数输出z会出现饱和:输入变化量△y很大时,输出变化量△z很小。

    • 在饱和区,输出量z接近于1,导致sigmoid函数梯度值接近于0,出现梯度消失问题。

    • 如果迭代停止条件设为训练误差为0,或者所有训练样本都正确分类的时候才停止,则会出现过拟合问题。

    • 所以,在达到一定训练精度后,提前停止迭代,可以避免过拟合。

    4.15 Softmax判据的概念

    image-20210526143545440

    image-20210526143602486

    • 得到任意正类的后验概率p((C_i|x))

    image-20210526143658385

    • 重新审视参考负类的后验概率(p(C_i|x))

    image-20210526143847155

    • 得到任意类的后验概率(p(C_i|x))

    image-20210526143917622

    • Softmax函数

    image-20210526144017244

    1. 如果一个类(C_i)对应的(y_i)(即线性模型的输出)远远大于其他类的,经过exp函数和归一化操作,该类的后验概率(p(C_i|x))接近于1,其他类的后验概率接近于0,则softmax决策就像是一个max函数。
    2. 但是,该函数又是可微分的,所以称作“软最大值函数”。
    • Softmax判据:K个线性判据+ softmax函数。

    image-20210526144215886

    image-20210526144458834

    image-20210526144512867

    • Softmax适用范围:分类/回归

    • 前提:每个类和剩余类之间是线性可分的。

    • 范围:可以拟合指数函数(exp)形式的非线性曲线。

    • 总结 image-20210526144723245

    4.16 Softmax判据的学习

    image-20210526144832820

    • 给定训练样本,学习K组参数image-20210526145029103

    image-20210526145105708

    image-20210526145134508

    目标函数

    image-20210526145409203

    image-20210526145424719

    image-20210526145458787

    对参数(w_k)求偏导

    image-20210526145546941

    image-20210526145559843

    image-20210526145635440

    对参数(w_{0k})求偏导

    image-20210526145738349

    • 采用梯度下降法更新所有{({w_i},w_{0i})}
      1. 设当前时刻为k,下一个时刻为k +1
      2. η为更新步长。

    image-20210526150002806

    4.17 核支持向量机

    • 提出问题:异或问题分类边界是非线性曲线

    image-20210526150650416

    image-20210526150704692

    image-20210526150730571

    image-20210526150743487

    image-20210526150807197

    • 核函数:在低维X空间的一个非线性函数,包含向量映射和点积功能,即作为X空间两个向量的度量,来表达映射到高维空间的向量之间的点积:

    image-20210526150832702

    image-20210526150842609

    决策边界方程也由N个非线性函数的线性组合来决定。因此,在X空间是一条非线性边界。

    • Kernel SVM的学习

    • 由于kernel SVM在高维o空间是线性的,所以kernel SVM的对偶函数可以表达为:image-20210526151038211

    image-20210526151054507

    • 核函数如何设计?核函数如何影响分类边界?

    Mercer条件:只要是半正定对称函数,都可以用作核函数。即对于N个样本,如下矩阵K是半正定对称矩阵。

    image-20210526151137805

    • 多项式核函数

    image-20210526151219465

    1. 不同的核函数参数值,决定了不同的支持向量和分类边界。
    2. ρ,m:取值越高,分类边界非线性程度越高。
    • 高斯核函数

    image-20210526151313898

    1. 不同的核函数参数值,决定了不同的支持向量和分类边界。
    2. 方差越小,分类边界越不平滑,甚至出现孤岛(过拟合)。

    思维导图

  • 相关阅读:
    理解cookie和session机制
    http协议中connection头的作用
    [转]使用Wireshark来检测一次HTTP连接过程
    http协议学习系列
    xcode清空project list
    How To Use Git Source Control with Xcode in iOS 6
    iOS开发XCODE5 SVN配置 使用办法
    iOS申请证书,Certificates, Identifiers &Profiles 简介
    C#学习单向链表和接口 IList<T>
    halcon学习笔记——(7)HALCON标定后的二维测量
  • 原文地址:https://www.cnblogs.com/031802223-ldq/p/14813802.html
Copyright © 2011-2022 走看看