zoukankan      html  css  js  c++  java
  • 数学基础_七月算法5月深度学习班第1次课程笔记

     
      desc
    outline
    微积分:
    · Taylor 层层展开,看极值
    · 标量求导 化成 矩阵求导,用新的 公式理论
    · # hessian 与正定性 的提出
     
    概率:
    · 中心极限定理,N 个 any 分布累积和 就是 正态分布
     
    矩阵:
    · Ax = λx 的几何意义 是旋转与伸缩 一个响亮
    · PCA 的本质就是 对协方差矩阵的对角化
    · # 什么矩阵能对角化,如何判断正定性
     
    凸优化
    · 待约束的,使用KKT 得到 必要解 用 是否激活的角度 大幅 化简KKT
    中心极限定理
    Xi 服从是任意一种分布,方差是σ2,均值是μ,Xi 之间独立同分布,那么:
    Y = (ΣXi -nμ)/sqrt(n)·σ 服从标准正态分布
    这是在创造一个新的 统计量,使得你陌生。
    但是如果整理一下,说明按照程博士说的
    ΣXi 服从的是 N(nμ, n·σ2)
     
    中国数学的高等教育一团糟:
    · 中心极限定理
    · Ax = λx
    · Taylor 展开式 说明极值
    · AB = C 其实是在维度转换
    · Ax = b 其实是方程的 列表示法  # 方程的行视图是平面交点,列视图是矩阵表示
    等等就是摆在那里,但是就是 不好好给你说清楚
    学好数学的方式
    思考怎么用
    也就是 它产生、出现的 需求
     
    思考方式【观点】
    把因素之间视为相互独立,一一去得出结论,这是一种勇敢的行为
    计算机的擅长 说计算机擅长计算,但是这个不够细致,擅长的是计算中的迭代,这一种计算而已
    SGD中的α
    1. 固定
    2. adadelta
    3. 深度梯度下降,求导而的
    4. 二分法 确定 α
       # α取一个极大值,如果 cost = f(x + αd) 是在降低,那么ok,否则就是 α = 0.5·α 的
       # 相当于 α 是一个搜索的过程,这样的话 一开始的 α是 可以取大些的,后面的α也可以取的小些
    高斯分布
    密度函数是 凹函数
     
    据说:给定了 均值和方差,高斯分布是信息熵最大的密度函数
    -Σp·logp
    p~N(μ,σ2)
    distribution = argmax_dis ( the collection of distribution with 均值μ,方差σ2 )
    遍历一个遍,试了下,可能是最大的,比如 也许可以是 泊松分布
    当然需要证明,因为: 分布有无穷种
    矩阵求导
    多元变量最好用 矩阵表示,然后 用矩阵求导 不易出错
    高维的 写成矩阵就是要写成 二次型的形式
    主要是 记住几个公式就可以了
    而不是 化为标量 一一求导 
    中心极限定理与高斯分布 有关系
    中心极限定理  contain 了高斯分布
     
     
     
    #### 中心极限定理 的定义假设就是 独立同分布
    任意独立同分布加起来 就是 高斯分布
    这个是 中心极限定理
    分别是 any 分布 
    4, 5项相加 以后就是 高斯了
    4 个 独立同分布的 泊松 相加 就接近高斯
     
    噪声累积和 为什么一般近似成高斯分布?# 理论依据,中心极限定理
     
     
    新的理论
    高斯 +  any分布 约等于 高斯,有一个近似误差
    如果x1+x2是独立的,x1是高斯,x2是任意的分布(比方泊松),两项加和后是近似高斯分布的(可
    证明)。
    对称矩阵
    一定可以对角化,不管特征值是否全不相等
    而且是 U 对角化,即 特征向量矩阵P 是正交矩阵,即可以被正交矩阵对角化
     
    协方差矩阵:一定可以U相似对角化,一定是半正定矩阵
    PCA 本质
    就是 协方差矩阵的对角化
    对角化后的 矩阵是 新空间下的 协方差矩阵
    对角化后我们把大的部分保留,小的扔掉
    在正定情况下。SVD=ED,但SVD稳定
    对SVM 的评价
    就是一个 标准的 凸优化问题
    。。。。。。。。。。。。。。。。。。。。。。。
    不懂 对偶式,why ?????
    分析问题用原问题,
    解问题时候可以用对偶方法来解。
    数学中的指标
    相关性就是使用协方差来表示
    信息的分散度、离散度 用 方差表示
    why 不等式约束激活 这个条件这么重要
    不等式约束激活,就从不等式得到了等式
    相当于 不等式约束 变成了 等式约束,这就能解了
     
    KKT
    一阶KKT 五个都满足,是必要条件 ,具体是不是极值还是鞍点,剩下的 用 二阶 KKT 看
    满足 二阶KKT 就是 极值点
    如果有些不满足 可能是鞍点,需要 四阶KKT
    具体判别类似于:泰勒展开 与求导  的角度
    KKT 的解,类似 一阶导数的解
    可能 极大,可能极小,可能鞍点
    此时要结合 二阶KKT 或者 画图分析
     
    如何解KKT
    显著的feature 就是 能被 大量化简
    看 不等式是否被激活:
    1. 不等式约束激活,就从不等式得到了等式
    2. 未激活,就意味着 系数是 0
    这样就可以 大幅度化简 KKT 条件了
    以后看模型就可以从这个角度看了
    这个优化问题是不是 凸优化问题
    如果 判断是凸优化,那么 直接 内点法就可以了
    约束问题
    解约束问题是将有约束变为无约束,
    如果是等式约束:通过拉格朗日
    如果是还有不等式约束:通过KKT
     
    若是图优化问题,那么KKT条件解出来的解,一定是全局最优。
    这个是 可证明的,因为没有鞍点,只要是极值点 就一定是 极小值,没有悬念是极大值
    why SGD 每次选择的是 梯度的方向
    δ 在这里是一个向量,假设在 δ = [δ1, δ2, δ3, δ4 ] 各个维度上元素的长度都是1
    即每次每个元素只能走 1 长度,这个是前提
    然后  这个是 向量内积,点乘。
    xk+δ 想让 f(xk+δ ) 尽可能大
    依据 泰勒展开式 f(xk+δ ) = f(xk) + f'(xk)δ,所以只能最大化这个 f'(xk)·δ
    即:δ  要与 f'(xk) 方向一致
     
    # 依据泰勒展开式的 等式,利用这个等于号
    # 假设前提是,在 每次每个元素只能走 1 长度
    怎么使用 Taylor 展开式
    【important】
    鞍点的特点是一二阶导数为0
    是否是极值点的判断方法:
    如果是看三阶导数,它必须也必须为0
    看的是其 四阶导数,判断方法和二阶导一样,如果大于0,为极小值,小于0为极大值
    等于0 就要继续看下去,看 五六阶导数
     
    也就是 泰勒展开式,可以层层展开,直至可以判断出是否是 极值
  • 相关阅读:
    动态类型
    unlink与close关系
    Google 历年笔试面试30题
    UNIX网络编程 卷2 源代码使用
    centos安装telnet
    python中安装第三方模块
    Linux平台 Oracle 18c RAC安装Part1:准备工作
    RHEL7 配置iSCSI模拟环境
    Solaris 10主机名和IP地址步骤
    设置sqlplus不显示除查询结果外的信息
  • 原文地址:https://www.cnblogs.com/jianzhitanqiao/p/5550298.html
Copyright © 2011-2022 走看看