外一章

zoukankan html css js c++ java

外一章

外一章

1. 深度学习的数学基础

概率统计线性代数最优化信息论微积分

1. 矩阵线性变换

特征值：(Ax=lambda x)

从线性变换的角度，矩阵相乘对原始向量同时施加方向变化和尺度变化。对于有些特殊的向量，矩阵的作用只有尺度变化而没有方向变化。这类特殊的向量就是特征向量，变化系数即为特征值。

矩阵的秩：

从线性方程组的角度，是度量矩阵行列之间的相关性。

从数据点分布的角度，是表示数据需要的最小的基的数量。数据分布模式越容易被捕捉，即需要的基越少，秩就越小。数据冗余度越大，需要的基就越少，秩越小。若矩阵表示的是结构化信息，如图像、用户-物品表等，各行之间存在一定相关性，一般是低秩的。

2. 机器学习-数据降维

较大的奇异值包含了矩阵的主要信息。只保留前r个较大奇异值及其对应的特征向量（一般r取(frac{d}{10})就可以保留足够信息），可实现数据从n * d维降到(n * r + r * r + r * d)。

低秩近似：保留决定数据分布的最主要的模式/方向（丢弃的可能是噪声或其他不关键信息）。

数据矩阵X一般同时包含结构信息和噪声，矩阵分解为两个矩阵相加，一个是低秩的（结构信息造成行或列间线性相关），另一个是稀疏的（噪声是稀疏的）。

2. 机器学习三要素：模型、策略与算法

1. 概率/函数形式的统一

2. 最优的策略设计

为什么选择梯度下降而非启发式优化？启发式善于处理有很多极值的情况，但很多时候没有局部极值（都是鞍点）优化效率低，复杂度高

训练误差->泛化误差

最合适的模型：机器学习从有限的观测数据中学习出规律，并将总结的规律推广应用到未观测样本上，即追求泛化性能。

泛化误差（期望风险）

训练误差（经验风险）

泛化错误

机器学习目的是获得小的泛化误差。训练误差要小，训练误差与泛化误差足够接近。

策略设计：无免费午餐定理、奥卡姆剃刀原理

欠拟合：训练集的一般性质尚未被学习器学好

过拟合：学习器把训练集特点当作样本的一般特点（训练误差小，测试误差大）

数据增广（训练集越大，越不容易过拟合）

3. 损失函数

BP神经网络和损失函数

平方损失、交叉熵

3. 频率学派 & 贝叶斯学派

频率学派：关注可独立重复的随机试验中单个事件发生的频率。可能性：事件发生频率的极限值。模型参数是唯一的，需要从有限的观测数据中估计参数值。

贝叶斯学派：关注随机事件的可信程度。可能性=假设+数据，数据是对初始假设做出修正，使观察者对概率的主观认识更接近客观实际。

4. Beyond深度学习

查看全文

相关阅读:
面试笔试题目集
 [vs2010]:fatal error C1010: 在查找预编译头时遇到意外的文件结尾。是否忘记了向源中添加“#include "StdAfx.h"”?
[数据库] SQLite常见问题解答
 安卓学习资料总结39
Android 学习资料总结40
python变量的定义和使用
 python运算符
 python的注释
 print输出函数
 python数据类型转换

原文地址：https://www.cnblogs.com/lipoicyclic/p/13381020.html

外一章

1. 深度学习的数学基础

1. 矩阵线性变换

2. 机器学习-数据降维

2. 机器学习三要素：模型、策略与算法

1. 概率/函数形式的统一

2. 最优的策略设计

3. 损失函数

3. 频率学派 & 贝叶斯学派

4. Beyond深度学习