zoukankan      html  css  js  c++  java
  • 线性代数和概率论——机器学习基础

    一、线性代数

    万事万物都可以被抽象成某些特征的组合,线性代数的本质是将具体事物抽象为数学对象,描述其静态和动态的特征。

    常见概念

    标量(scalar)

    一个标量 a 可以是整数、实数或复数

    向量(vector)

    多个标量 a1,a2,⋯,an 按一定顺序组成一个序列。通常用一维数组表示,例如语音信号

    矩阵(matrix)

    矩阵包含向量,一个m*n的矩阵,可以看成是由n个m维的列向量构成,也可以看成是由m个n维的行向量构成。通过用二维数组表示,例如灰度图像

    张量(tensor)

    张量就是高阶的矩阵,如果把三阶魔方的每一个小方块看作一个数,它就是个 3×3×3 的张量,3×3 的矩阵则恰是这个魔方的一个面,也就是张量的一个切片。通过用三维乃至更高维度的数组表示,例如RGB图像

    范数(norm)

    对单个向量大小的度量,描述的是向量自身的性质,将向量映射为一个非负的数值。

    内积(inner product)

    两个向量之间的相对位置,即向量之间的夹角。计算的则是两个向量之间的关系

    线性空间(linear space)

    一个集合,元素是具有相同维数的向量(可以是有限个或无限个), 并且定义了加法和数乘等结构化的运算

    内积空间(inner product space)

    定义了内积运算的线性空间

    正交基(orthogonal basis)

    在内积空间中,一组两两正交的向量。正交基的作用就是给内积空间定义出经纬度。⼀旦描述内积空间的正交基确定了,向量和点之间的对应关系也就随之确定。

    标准正交基(orthonormal basis)

    正交基中基向量的范数单位长度都是1

    线性变换(linear mapping)

    线性变换描述了向量或者作为参考系的坐标系的变化,可以用矩阵表示;
    线性空间中,变化的实现有两种方式:

    • 点的变化
      Ax=y
      表示向量 x 经过矩阵 A 所描述的变换,变成了向量 y
    • 参考系的变化
      描述矩阵的⼀对重要参数是特征值λ和特征向量x。
      对于给定的矩阵 A,假设其特征值为λ,特征向量为 x,则它们之间的关系如下:
      Ax=λx
      矩阵的特征和特征向量描述了变化速度与方向。
      把矩阵所代表的变化看作奔跑的人,那么特征值λ代表奔跑的速度,特征向量x代表奔跑的方向。

    更通俗的理解是:在空间里将一个物体拉伸、旋转到另外的一个形状

    二、概率论

    同线性代数一样,概率论也代表一种看待世界的方式,关注的焦点是生活中的不确定性和可能性。
    概率论是线性代数之外,人工智能的另一个理论基础,多数机器学习模型采用的都是基于概率论的方法。
    由于实际任务中可供使用的训练数据有限,因而需要对概率分布的参数进行估计,这也是机器学习的核心任务。

    两大学派

    频率学派(Frequentists)

    频率派认为参数是客观存在,不会改变,虽然未知,但却是固定值。只是观察者的我们无从知晓,因此在计算具体事件的概率时,要先确定分布的类型和参数,以此为基础进行概率推演

    贝叶斯学派(Bayesians)

    贝叶斯派则认为参数是随机值,固定的先验分布是不存在的。假设本身取决于观察结果,数据的作用就是对假设做出不断修正,使观察者对概率的主观认识更加接近客观实际。

    频率派最常关心的是似然函数,而贝叶斯派最常关心的是后验分布。

    两种概率估计方法

    极大似然估计法(maximum likelihood estimation)

    思想是使训练数据出现的概率最大化,依此确定概率分布中的未知参数,估计出的概率分布也就符合训练训练数据的分布。
    极大似然估计中,似然函数被定义为样本观测值出现的概率,确定未知参数的准则是让似然函数最大化,也就是微积分中求解函数最大值的问题。
    最大似然估计法估计参数时,只需要使用训练数据

    最大后验概率法(maximum a posteriori estimation)

    思想是根据训练数据和已知的其他条件,使未知参数出现的可能性最大化,并选取最可能的未知参数取值作为估计值。
    最大后验概率法估计参数时,除了训练数据外,还需要额外的信息,也就是贝叶斯中的先验概率

    举例说明

    好学生和差学生打架

    1. 极大似然估计:老师认为肯定是差学生的错,因为差学生爱惹事
    2. 最大后验概率:老师如果知道优等生和差学生之间的过节(先验信息),把这些因素考虑进来,就不会简单地认为是养生挑衅。

    极大似然是寻找一组参数使得观测数据出现的概率最大,最大后验是寻找当前观测数据下出现概率最大的一组参数。

    两种随机变量

    离散型随机变量(discrete random variable)

    在一定区间内取值有有限个或者可数个,例如某些地区人口的出生数

    连续型随机变量(continuous random variable)

    在一定区间内变量取值有无限个,数值无法一一列举出来,例如某些地区的房价

  • 相关阅读:
    LAMP环境搭建
    Httpd
    MySQL常用配置和性能压力测试:MySQL系列之十五
    MySQL的高可用实现:MySQL系列之十四
    MySQL的复制:MySQL系列之十三
    备份与恢复:MySQL系列之十二
    日志记录:MySQL系列之十一
    事务隔离实现并发控制:MySQL系列之十
    SpringMVC上传文件(图片)并保存到本地
    W10如何开启LinuxBash及安装Ubuntu
  • 原文地址:https://www.cnblogs.com/chenqionghe/p/12557966.html
Copyright © 2011-2022 走看看