zoukankan      html  css  js  c++  java
  • 外一章

    外一章

    1. 深度学习的数学基础

    概率统计 线性代数 最优化 信息论 微积分

    1. 矩阵线性变换

    特征值:(Ax=lambda x)

    从线性变换的角度 ,矩阵相乘对原始向量同时施加方向变化和尺度变化。对于有些特殊的向量,矩阵的作用只有尺度变化而没有方向变化。这类特殊的向量就是特征向量,变化系数即为特征值。

    矩阵的秩:

    从线性方程组的角度,是度量矩阵行列之间的相关性。

    从数据点分布的角度,是表示数据需要的最小的基的数量。数据分布模式越容易被捕捉,即需要的基越少,秩就越小。数据冗余度越大,需要的基就越少,秩越小。若矩阵表示的是结构化信息,如图像、用户-物品表等,各行之间存在一定相关性,一般是低秩的。

    2. 机器学习-数据降维

    较大的奇异值包含了矩阵的主要信息。只保留前r个较大奇异值及其对应的特征向量(一般r取(frac{d}{10})就可以保留足够信息),可实现数据从n * d维降到(n * r + r * r + r * d)。

    低秩近似:保留决定数据分布的最主要的模式/方向(丢弃的可能是噪声或其他不关键信息)。

    数据矩阵X一般同时包含结构信息和噪声,矩阵分解为两个矩阵相加,一个是低秩的(结构信息造成行或列间线性相关),另一个是稀疏的(噪声是稀疏的)。

    2. 机器学习三要素:模型、策略与算法

    1. 概率/函数形式的统一

    2. 最优的策略设计

    为什么选择梯度下降而非启发式优化?启发式善于处理有很多极值的情况,但很多时候没有局部极值(都是鞍点)优化效率低,复杂度高

    训练误差->泛化误差

    最合适的模型:机器学习从有限的观测数据中学习出规律,并将总结的规律推广应用到未观测样本上,即追求泛化性能。

    泛化误差(期望风险)

    训练误差(经验风险)

    泛化错误

    机器学习目的是获得小的泛化误差。训练误差要小,训练误差与泛化误差足够接近。

    策略设计:无免费午餐定理、奥卡姆剃刀原理

    欠拟合:训练集的一般性质尚未被学习器学好

    过拟合:学习器把训练集特点当作样本的一般特点(训练误差小,测试误差大)

    数据增广(训练集越大,越不容易过拟合)

    3. 损失函数

    BP神经网络和损失函数

    平方损失、交叉熵

    3. 频率学派 & 贝叶斯学派

    频率学派:关注可独立重复的随机试验中单个事件发生的频率。可能性:事件发生频率的极限值。模型参数是唯一的,需要从有限的观测数据中估计参数值。

    贝叶斯学派:关注随机事件的可信程度。可能性=假设+数据,数据是对初始假设做出修正,使观察者对概率的主观认识更接近客观实际。

    4. Beyond深度学习

  • 相关阅读:
    求助
    第五次作业
    第四次作业
    第三次作业
    第二次作业(四则运算)
    关于软件工程相关疑问
    小组成员名单()
    第四次作业
    第二次作业
    第一次作业
  • 原文地址:https://www.cnblogs.com/lipoicyclic/p/13381020.html
Copyright © 2011-2022 走看看