zoukankan      html  css  js  c++  java
  • 深度学习的数学基础

    线性代数

    基本变量:标量、向量、矩阵、张量

    基本运算:乘法、加法、逆运算;线性变换的几何意义

    范数

    特征分解:$A=V*diag(lambda)*V^{-1}$

    奇异值分解:$A=Q*diag(Sigma)*V$

    伪逆:$A^+=V^T*diag(Sigma^{-1})*Q^T$

    迹运算:$tr(A)=sum_{i}^{ }A_{ii}$;$tr(ABC)=tr(BCA)=tr(CAB)$

    主成分分析:线性变换的残差最小化,可用特征分解求得

    $$D^*=argmin_Dleft |  X-DD^TX ight |_F^2=argmax_Dtr(D^TX^TXD);s.t.;D^TD=I_l$$

    数值计算

    截断与舍入误差:级数截断、上溢与下溢

    病态条件:特征值差别过大、矩阵求逆对输入误差很敏感

    无约束优化:$arg\,min_x f(x)$

    • 梯度下降:$Delta x=-epsilon igtriangledown f(x)$
    • 共轭梯度:考虑了已搜索的方向,与已搜索的子空间共轭$p_nAp_i=0,i=0,...,n-1$,$p_n$为下一个搜索方向。
    • 牛顿法:利用hessian矩阵求步长,适合凸优化问题。

    有约束优化:$arg\,min_x f(x)$ s.t. $g(x)leqslant 0$

    • 广义拉格朗日函数:$L(x,lambda)=f(x)+lambda*g(x)$
    • 转换为无约束优化:$arg\,min_x max_{lambda>=0} f(x,lambda)$
    • 互补松弛性:$lambdaigodot g(x)=0$

    概率与信息论

    基本概念

    • 随机变量、概率分布、概率密度
    • 联合(多元变量)、条件、边缘概率
    • 独立性与零协方差

    贝叶斯网络

    • 链式法则、根据独立性和链式法则,把联合分布分解成条件概率的乘积
    • 每个条件概率对应到一组边,形成一个网络

    期望、方差和协方差

    • 矩、中位数、众数

    常用概率分布

    • 高斯、二次、多项式、指数和 Laplace、Dirac 和经验分布、混合分布

    常用函数

    • logistic: $sigma(x)=(1+e^{-x})^{-1}$
    • softplus: $zeta(x)=log(1+e^x)$,$log sigma(x)=-zeta(-x)$

    统计理论

    • 点估计:$hat{ heta}_m=g(...,x^{(m)})$。偏差与方差衡量估计量的两个不同误差来源。
    • 一致性:$lim_{m oinfty}P(|hat{ heta}_m- heta|>epsilon)=0$
    • 最大似然估计ML:$ heta_{ML}=argmax_ heta P_{model}(X; heta)$
    • 最大后验概率MAP:$ heta_{MAP}=argmax_ heta p(x| heta)=argmax_ heta [log p( heta|x)+log p( heta)]$

    信息论

    • 概率分布P的香农熵:$H(X)=E_{Xsim P}[I(X)]=-E_{Xsim P}[log P(x)]$
    • 条件熵:$H(Y|X) = -sum_{x,y}P(x,y) log frac {P(x,y)} {P(x)}$
    • 联合熵:$H(X,Y) = -sum_{x,y}P(x,y) log {P(x,y)} = H(X) + H(Y|X)$
    • 互信息:$I(X;Y)=sum_{x,y} P(x,y) log frac {P(x,y)}{P(x)P(y)}=H(X)-H(X|Y)=H(Y)-H(Y|X)$
    • KLD散度:$D_{KL}(P||Q)=E_{Xsim P}[log frac{P(x)}{Q(x)}]$
    • 交叉熵:$H(P,Q)=E_{Xsim P}[log Q(x)]=H(P)+D_{KL}(P||Q)$

    概率图模型

    • 有向图:静态贝叶斯、动态贝叶斯(隐马尔可夫模型)
    • 无向图:马尔可夫网络(条件随机场、玻尔兹曼机)

    机器学习

    容量、过拟合与欠拟合、超参数与验证集

    有监督与无监督学习

    随机梯度下降

    参考文献

    • 张帼奋,概率论、数理统计和随机过程,浙江大学出版社,2011
    • 海金,神经网络与机器学习,机械工业出版社,2009-3
    • Deep learning, www.deeplearning.net
    • 俞栋、邓力,解析深度学习:语言识别实践,电子工业出版社,2016.7
  • 相关阅读:
    Java基础环境配置及HelloWorld
    Cassandra 在 360 的实践与改进
    如何构建阿里小蜜算法模型的迭代闭环?
    通用高效的数据修复方法:Row level repair
    RALM: 实时 Look-alike 算法在微信看一看中的应用
    人机对话技术研究进展与思考
    打造最可靠的自动驾驶基础架构
    Django中render和render_to_response的区别
    ui自动化chrome文件上传操作
    超继承super
  • 原文地址:https://www.cnblogs.com/liuyunfeng/p/7851778.html
Copyright © 2011-2022 走看看