zoukankan      html  css  js  c++  java
  • 《机器学习》第一次作业——第一至三章学习记录和心得

    一、模式识别的基本概念

    1.1模式识别

    1.定义:模式识别是根据已有的知识表达,针对待识别模式,判别决策其所属的类别或者预测其对应的回归值。
    2.本质:模式识别本质上是一种推理过程

    3.应用实例:计算机视觉(字符识别,交通标志识别,动作识别等),人机交互(语音识别等)、医学领域(模式识别)、网络领域(应用程序识别)、金融领域(模式识别、股票价格预测)、机器人领域(目标抓取)、无人车领域(无人驾驶)。
    4.数学表达:可以看成一做函数映射f(x),将待识别模式x从输入空间映射到输出空间,f(x)是关于已有知识的表达。

    1.2模型的概念

    1.模型:关于已有知识的一种表达方式,即函数f(x)。
    2.模型的组成
    从广义上看:特征提取+回归器+判别函数
    从狭义上看:特征提取+回归器+判别函数

    3 特征&特征空间
    (1)特征:可以用于区分不同类别模式的、可测量的量。
    (2)特征向量(feature vector):多个特征构成的(列)向量。

    1.3 特征向量的相关性

    1.点积的代数定义

    2.残差向量:向量x分解到向量y方向上得到的投影向量与原向量x的误差。

    3.欧式距离

    1.4机器学习基本概念

    1.线性模型:模型结构是线性的(直线、面。超平面)

    适用场景:数据是线性可分或线性表达的

    2.非线性模型:模型结构是非线性的(曲线。曲面、超曲面):y=g(x)
    适用场景:数据是线性不可分或者线性不可表达
    eg:多项式、神经网络、决策树等

    3.样本量(N)与模型参数量(M)的联系
    (1)如果N==M:参数唯一解
    (2)如果N>>M(over-determined):没有准确的解
    (3)如果N<<M(under-determined):无数解或无解

    4.目标函数
    (1)对于over -determined的情况,需要额外添加一个标准,通过优化该标准来确定一个近似解。该标准就叫目标函数(Objective function),也称作代价函数或损失函数
    (2)对于under-determined的情况,还需要在目标函数中加入能够体现对于参数解的约束条件,据此从无数个解中选出最优的一个解。

    5.优化算法:最小化或最大化目标函数的技术

    1.5机器学习的方式

    1.监督室学习:训练样本及输出真值都给定情况下的机器学习算法。通常使用最小化训练误差作为目标函数进行优化。
    2.无监督式学习:之给定训练样本、没有给输出真值情况下的机器学习算法。难度远高于监督式算法。
    应用:聚类(Clustering)、图像分割(Image Segmentation)。
    3.半监督式学习:既有标注的训练样本,又有未标注的训练样本情况下的学习算法。可以看做有约束条件的无监督式学习。
    应用:网络流数据。
    4.强化学习:机器自行探索决策、真值滞后反馈的过程。
    应用:Alpha Go等

    1.6评估方法与性能指标

    1.评估方法:
    (1)留出法:
    随机划分:将数据集随机分为两组:训练集和测试集。利用训练集训练模型,然后利用测试集评估模型的量化指标。
    取统计值:为了克服单次随机划分带来的偏差,将上述随机划分进行若干次,取量化指标的平均值(以及方差、最大值等)作为最终的性能量化评估结果。
    (2)K折交叉验证
    将数据集分割成K个子集,从其中选取单个子集作为测试集,其他K - 1个子集作为训练集。交叉验证重复K次,使得每个子集都被测试-次;将K次的评估值取平均,作为最终的量化评估结果。
    (3)留一验证
    每次只取数据集中的一个样本做测试集,剩余的做训练集。每个样本测试一次,取所有评估值的平均值作为最终评估结果。等同于K折交叉验证,K为数据集样本总数。

    1.7性能指标度量

    二类分类:真阳性(TP),假阳性(FP),真阴性(TN),假阴性(FN)

    1.准确度:(TP+TN)/(TP+TN+FP+FN)
    2.精度&召回率:
    精度:TP/(TP+FP)
    召回率:TP/(TP+FN)
    精度高、召回率高,则模型性能越好。
    3.F-Score

    如果a=1,则

    4.PR、ROC、AUC

    二、基于距离的分类器

    2.1 基于距离的分类器的基本概念:

    • 把测试样本到每个类之间的距离作为决策模型,将测试样本判定为与其距离最近的类。
      1.MED分类器
      (1)概念:最小欧式距离分类器(Minimum Euclidean Distance Classifier)
      (2)距离度量:马氏距离
      (3)类的原型:均值

      (4)缺陷:会选择方差较大的类

      1.决策边界:
      (1)对于2个类而言,MED分类器的决策边界方程为:

      关于x的一次函数
      (2)在高维空间中,决策边界为超平面

    2.2.特征白化(去除特征相关性)

    1.目的:将原始特征映射到一个新的特征空间,使得在新空间中特征的协方差矩阵为单位矩阵,从而去除特征变化的不同及特征之间的相关性
    2.步骤:分为两步,先去除特征之间的相关性(解耦, Decoupling) ,然后再对特征进行尺度变换(白化, Whitening),使每维特征的方差相等。
    3.转换矩阵W1的特性:转换前后欧氏距离保持不变,说明W1只是起到了旋转的作用。

    三、贝叶斯决策和学习

    3.1贝叶斯决策与MAP分类器

    1.引言:

    MICD分类器的问题:当两个类均值一样时,MICD偏向于方差大的类。
    在此种情况,决策真值应该是倾向于方差小(分布紧致)的类。

    2.后验概率:用于分类决策(找后验概率大的那个类)
    3.贝叶斯规则

    4.MAP分类器:将测试样本决策分类给后验概率最大的那个类。

    (1)决策误差:概率误差等于未选择的类所对应的后验概率。
    平均误差为样本概率误差的均值。
    (2)目标:最小化概率误差,即分类误差最小化。

    3.2MAP分类器:高斯观测概率

    1.观测似然概率为一维高斯分布的分布函数:

    3.决策边界
    方程表达为

    方便与MED分类器进行比较,也可以写为

    在方差相同的情况下,MAP决策边界偏向先验可能性较小的类,即分类器决策偏向先验概率高的类
    MAP分类器可以解决MICD分类器存在的问题。
    当方差不同时,MAP分类器倾向选择方差较小的类。

    3.3决策风险与贝叶斯分类器

    1.决策风险的概念:贝叶斯决策不能排除出现错误判断的情况,由此会带来决策风险。

    2.贝叶斯分类器
    在MAP分类器的基础上,加入决策风险因素,得到贝叶斯分类器。贝叶斯分类器选择决策风险最小的类。

    贝叶斯决策的期望损失

    3.4最大似然估计

    1.最大似然估计
    定义

    2.高斯分布参数估计
    对于参数偏导置零

    4.均值估计
    关于u的最大似然估计

    高斯分布均值的最大似然估计等于样本的均值
    5.协方差估计

    高斯分布协方差的最大似然估计等于所有训练模式的协方差。

    3.5最大似然的估计偏差

    1.无偏估计:
    定义:如果一个参数的估计量的数学期望是该参数的真值,则估计量称作无偏估计。
    2.高斯均值

    均值的最大似然估计是无偏估计。
    3.高斯协方差


    协方差的最大似然估计是有偏估计
    5.高斯协方差估计偏差

    一个较小的数。

    3.6贝叶斯估计

    1.定义

    2.参数的后验概率

    3.高斯观测似然

    5.贝叶斯估计:不断学习能力
    它允许最初的、基于少量训练样本的、不太准的估计。
    随着训练样本的不断增加,可以串行的不断修正参数的估计值,从而达到该参数的期望真值。
    6.观测似然概率的估计

    观测似然概率可以看做是关于x的高斯分布

    3.8 KNN估计

    1.KNN估计:给定x,找到其对应的区域R使其包含k个训练样本,以此计算p(x)、
    概率密度的表达式

    2.KNN估计的优缺点:
    优点:可以自适应的确定x相关的区域R的范围。
    缺点:KNN概率密度估计不是连续函数。
    不是真正的概率密度表达,概率密度函数积分是oo而不是1。

    3.8 直方图与核密度估计

    1.直方图估计
    原理:基于无参数概率密度估计的基本原理:

    区域R的确定
    直接将特征空间分为m个格子(bins),每个格子即为一个区域R,即区域的位置固定。
    平均分格子大小,所以每个格子的体积(带宽)设为V= h,即区域的大小固定。
    相邻格子不重叠。
    落到每个格子里的训练样本个数不固定,即k值不需要给定。
    2.直方图估计的优缺点:
    优点:
    固定区域R:减少由于噪声污染造成的估计误差。
    不需要存储训练样本。
    缺点:
    固定区域R的位置:如果模式x落在相邻格子的交界区域,意味着当前格子不是以模式x为中心,导致统计和概率估计不准确。
    固定区域R的大小:缺乏概率估计的自适应能力,导致过于尖锐或平滑。

    3.核密度估计
    估计也是基于无参数概率密度估计的基本原理
    区域R的确定:以任意待估计模式x为中心、固定带宽h,以此确定一个区域R。

    4.概率密度估计

    核函数可以是高斯分布、均匀分布、三角分布等。
    6.核密度估计的优缺点:
    优点:
    以待估计模式x为中心、自适应确定区域R的位置(类似KNN)。
    使用所有训练样本,而不是基于第k 个近邻点来估计概率密度,从而克服KNN估计存在的噪声影响。
    如果核函数是连续,则估计的概率密度函数也是连续的。
    缺点:
    与直方图估计相比,核密度估计不提前根据训练样本估计每个格子的统计值,所以它必须要存储所有训练样本。

  • 相关阅读:
    【2021-06-14】何太第一次喝断片
    【2021-06-13】管理的目标也就是把事情做好
    判断字符串的两半是否相等
    生成每种字符都是奇数个的字符串
    叶子相似的树
    面试准备
    北京旅行计划
    M笔试
    连续字符
    字符串中第一个唯一字符
  • 原文地址:https://www.cnblogs.com/tansh/p/14730357.html
Copyright © 2011-2022 走看看