线性代数和概率论——机器学习基础

zoukankan html css js c++ java

线性代数和概率论——机器学习基础
目录
一、线性代数
常见概念
标量（scalar）
向量（vector）
矩阵（matrix）
张量（tensor）
范数（norm）
内积（inner product）
线性空间（linear space）
内积空间（inner product space）
正交基（orthogonal basis）
标准正交基（orthonormal basis）
线性变换（linear mapping）
二、概率论
两大学派
频率学派（Frequentists）
贝叶斯学派（Bayesians）
两种概率估计方法
极大似然估计法（maximum likelihood estimation）
最大后验概率法（maximum a posteriori estimation）
举例说明
好学生和差学生打架
两种随机变量
离散型随机变量（discrete random variable）
连续型随机变量（continuous random variable）
一、线性代数

万事万物都可以被抽象成某些特征的组合，线性代数的本质是将具体事物抽象为数学对象，描述其静态和动态的特征。

常见概念

标量（scalar）

一个标量 a 可以是整数、实数或复数

向量（vector）

多个标量 a1,a2,⋯,an 按一定顺序组成一个序列。通常用一维数组表示，例如语音信号

矩阵（matrix）

矩阵包含向量，一个m*n的矩阵,可以看成是由n个m维的列向量构成,也可以看成是由m个n维的行向量构成。通过用二维数组表示，例如灰度图像

张量（tensor）

张量就是高阶的矩阵，如果把三阶魔方的每一个小方块看作一个数，它就是个 3×3×3 的张量，3×3 的矩阵则恰是这个魔方的一个面，也就是张量的一个切片。通过用三维乃至更高维度的数组表示，例如RGB图像

范数（norm）

对单个向量大小的度量，描述的是向量自身的性质，将向量映射为一个非负的数值。

内积（inner product）

两个向量之间的相对位置，即向量之间的夹角。计算的则是两个向量之间的关系

线性空间（linear space）

一个集合，元素是具有相同维数的向量（可以是有限个或无限个），并且定义了加法和数乘等结构化的运算

内积空间（inner product space）

定义了内积运算的线性空间

正交基（orthogonal basis）

在内积空间中，一组两两正交的向量。正交基的作用就是给内积空间定义出经纬度。⼀旦描述内积空间的正交基确定了，向量和点之间的对应关系也就随之确定。

标准正交基（orthonormal basis）

正交基中基向量的范数单位长度都是1

线性变换（linear mapping）

线性变换描述了向量或者作为参考系的坐标系的变化，可以用矩阵表示；
线性空间中，变化的实现有两种方式:
- 点的变化
  Ax=y
  表示向量 x 经过矩阵 A 所描述的变换，变成了向量 y
- 参考系的变化
  描述矩阵的⼀对重要参数是特征值λ和特征向量x。
  对于给定的矩阵 A，假设其特征值为λ，特征向量为 x，则它们之间的关系如下：
  Ax=λx
  矩阵的特征和特征向量描述了变化速度与方向。
  把矩阵所代表的变化看作奔跑的人，那么特征值λ代表奔跑的速度，特征向量x代表奔跑的方向。
更通俗的理解是：在空间里将一个物体拉伸、旋转到另外的一个形状

二、概率论

同线性代数一样，概率论也代表一种看待世界的方式，关注的焦点是生活中的不确定性和可能性。
概率论是线性代数之外，人工智能的另一个理论基础，多数机器学习模型采用的都是基于概率论的方法。
由于实际任务中可供使用的训练数据有限，因而需要对概率分布的参数进行估计，这也是机器学习的核心任务。

两大学派

频率学派（Frequentists）

频率派认为参数是客观存在，不会改变，虽然未知，但却是固定值。只是观察者的我们无从知晓，因此在计算具体事件的概率时，要先确定分布的类型和参数，以此为基础进行概率推演

贝叶斯学派（Bayesians）

贝叶斯派则认为参数是随机值，固定的先验分布是不存在的。假设本身取决于观察结果，数据的作用就是对假设做出不断修正，使观察者对概率的主观认识更加接近客观实际。

频率派最常关心的是似然函数，而贝叶斯派最常关心的是后验分布。

两种概率估计方法

极大似然估计法（maximum likelihood estimation）

思想是使训练数据出现的概率最大化，依此确定概率分布中的未知参数，估计出的概率分布也就符合训练训练数据的分布。
极大似然估计中，似然函数被定义为样本观测值出现的概率，确定未知参数的准则是让似然函数最大化，也就是微积分中求解函数最大值的问题。
最大似然估计法估计参数时，只需要使用训练数据

最大后验概率法（maximum a posteriori estimation）

思想是根据训练数据和已知的其他条件，使未知参数出现的可能性最大化，并选取最可能的未知参数取值作为估计值。
最大后验概率法估计参数时，除了训练数据外，还需要额外的信息，也就是贝叶斯中的先验概率

举例说明

好学生和差学生打架
1. 极大似然估计：老师认为肯定是差学生的错，因为差学生爱惹事
2. 最大后验概率：老师如果知道优等生和差学生之间的过节（先验信息），把这些因素考虑进来，就不会简单地认为是养生挑衅。
极大似然是寻找一组参数使得观测数据出现的概率最大，最大后验是寻找当前观测数据下出现概率最大的一组参数。

两种随机变量

离散型随机变量（discrete random variable）

在一定区间内取值有有限个或者可数个，例如某些地区人口的出生数

连续型随机变量（continuous random variable）

在一定区间内变量取值有无限个，数值无法一一列举出来，例如某些地区的房价
查看全文

相关阅读:
dubbo入门（一）
java中文件操作《一》
Unity 游戏框架搭建 2019 (七) 自定义快捷键
 凉鞋：我所理解的框架【Unity 游戏框架搭建】
Unity 游戏框架搭建 2019 (六) MenuItem 复用
 Unity 游戏框架搭建 2019 (五) 打开所在文件夹
 Unity 游戏框架搭建 2019 (四) 导出 UnityPackage
Unity 游戏框架搭建 2019 (三) 生成文件名到剪切板
 Unity 游戏框架搭建 2019 (二) 文本复制到剪切板
 Unity 游戏框架搭建 2019 (一) 简介与第一个示例文件名的生成

原文地址：https://www.cnblogs.com/chenqionghe/p/12557966.html

线性代数和概率论——机器学习基础

一、线性代数

常见概念

标量（scalar）

向量（vector）

矩阵（matrix）

张量（tensor）

范数（norm）

内积（inner product）

线性空间（linear space）

内积空间（inner product space）

正交基（orthogonal basis）

标准正交基（orthonormal basis）

线性变换（linear mapping）

二、概率论

两大学派

频率学派（Frequentists）

贝叶斯学派（Bayesians）

两种概率估计方法

极大似然估计法（maximum likelihood estimation）

最大后验概率法（maximum a posteriori estimation）

举例说明

好学生和差学生打架

两种随机变量

离散型随机变量（discrete random variable）

连续型随机变量（continuous random variable）