zoukankan      html  css  js  c++  java
  • 数学基础_七月算法5月深度学习班第1次课程笔记

     
      desc
    outline
    微积分:
    · Taylor 层层展开,看极值
    · 标量求导 化成 矩阵求导,用新的 公式理论
    · # hessian 与正定性 的提出
     
    概率:
    · 中心极限定理,N 个 any 分布累积和 就是 正态分布
     
    矩阵:
    · Ax = λx 的几何意义 是旋转与伸缩 一个响亮
    · PCA 的本质就是 对协方差矩阵的对角化
    · # 什么矩阵能对角化,如何判断正定性
     
    凸优化
    · 待约束的,使用KKT 得到 必要解 用 是否激活的角度 大幅 化简KKT
    中心极限定理
    Xi 服从是任意一种分布,方差是σ2,均值是μ,Xi 之间独立同分布,那么:
    Y = (ΣXi -nμ)/sqrt(n)·σ 服从标准正态分布
    这是在创造一个新的 统计量,使得你陌生。
    但是如果整理一下,说明按照程博士说的
    ΣXi 服从的是 N(nμ, n·σ2)
     
    中国数学的高等教育一团糟:
    · 中心极限定理
    · Ax = λx
    · Taylor 展开式 说明极值
    · AB = C 其实是在维度转换
    · Ax = b 其实是方程的 列表示法  # 方程的行视图是平面交点,列视图是矩阵表示
    等等就是摆在那里,但是就是 不好好给你说清楚
    学好数学的方式
    思考怎么用
    也就是 它产生、出现的 需求
     
    思考方式【观点】
    把因素之间视为相互独立,一一去得出结论,这是一种勇敢的行为
    计算机的擅长 说计算机擅长计算,但是这个不够细致,擅长的是计算中的迭代,这一种计算而已
    SGD中的α
    1. 固定
    2. adadelta
    3. 深度梯度下降,求导而的
    4. 二分法 确定 α
       # α取一个极大值,如果 cost = f(x + αd) 是在降低,那么ok,否则就是 α = 0.5·α 的
       # 相当于 α 是一个搜索的过程,这样的话 一开始的 α是 可以取大些的,后面的α也可以取的小些
    高斯分布
    密度函数是 凹函数
     
    据说:给定了 均值和方差,高斯分布是信息熵最大的密度函数
    -Σp·logp
    p~N(μ,σ2)
    distribution = argmax_dis ( the collection of distribution with 均值μ,方差σ2 )
    遍历一个遍,试了下,可能是最大的,比如 也许可以是 泊松分布
    当然需要证明,因为: 分布有无穷种
    矩阵求导
    多元变量最好用 矩阵表示,然后 用矩阵求导 不易出错
    高维的 写成矩阵就是要写成 二次型的形式
    主要是 记住几个公式就可以了
    而不是 化为标量 一一求导 
    中心极限定理与高斯分布 有关系
    中心极限定理  contain 了高斯分布
     
     
     
    #### 中心极限定理 的定义假设就是 独立同分布
    任意独立同分布加起来 就是 高斯分布
    这个是 中心极限定理
    分别是 any 分布 
    4, 5项相加 以后就是 高斯了
    4 个 独立同分布的 泊松 相加 就接近高斯
     
    噪声累积和 为什么一般近似成高斯分布?# 理论依据,中心极限定理
     
     
    新的理论
    高斯 +  any分布 约等于 高斯,有一个近似误差
    如果x1+x2是独立的,x1是高斯,x2是任意的分布(比方泊松),两项加和后是近似高斯分布的(可
    证明)。
    对称矩阵
    一定可以对角化,不管特征值是否全不相等
    而且是 U 对角化,即 特征向量矩阵P 是正交矩阵,即可以被正交矩阵对角化
     
    协方差矩阵:一定可以U相似对角化,一定是半正定矩阵
    PCA 本质
    就是 协方差矩阵的对角化
    对角化后的 矩阵是 新空间下的 协方差矩阵
    对角化后我们把大的部分保留,小的扔掉
    在正定情况下。SVD=ED,但SVD稳定
    对SVM 的评价
    就是一个 标准的 凸优化问题
    。。。。。。。。。。。。。。。。。。。。。。。
    不懂 对偶式,why ?????
    分析问题用原问题,
    解问题时候可以用对偶方法来解。
    数学中的指标
    相关性就是使用协方差来表示
    信息的分散度、离散度 用 方差表示
    why 不等式约束激活 这个条件这么重要
    不等式约束激活,就从不等式得到了等式
    相当于 不等式约束 变成了 等式约束,这就能解了
     
    KKT
    一阶KKT 五个都满足,是必要条件 ,具体是不是极值还是鞍点,剩下的 用 二阶 KKT 看
    满足 二阶KKT 就是 极值点
    如果有些不满足 可能是鞍点,需要 四阶KKT
    具体判别类似于:泰勒展开 与求导  的角度
    KKT 的解,类似 一阶导数的解
    可能 极大,可能极小,可能鞍点
    此时要结合 二阶KKT 或者 画图分析
     
    如何解KKT
    显著的feature 就是 能被 大量化简
    看 不等式是否被激活:
    1. 不等式约束激活,就从不等式得到了等式
    2. 未激活,就意味着 系数是 0
    这样就可以 大幅度化简 KKT 条件了
    以后看模型就可以从这个角度看了
    这个优化问题是不是 凸优化问题
    如果 判断是凸优化,那么 直接 内点法就可以了
    约束问题
    解约束问题是将有约束变为无约束,
    如果是等式约束:通过拉格朗日
    如果是还有不等式约束:通过KKT
     
    若是图优化问题,那么KKT条件解出来的解,一定是全局最优。
    这个是 可证明的,因为没有鞍点,只要是极值点 就一定是 极小值,没有悬念是极大值
    why SGD 每次选择的是 梯度的方向
    δ 在这里是一个向量,假设在 δ = [δ1, δ2, δ3, δ4 ] 各个维度上元素的长度都是1
    即每次每个元素只能走 1 长度,这个是前提
    然后  这个是 向量内积,点乘。
    xk+δ 想让 f(xk+δ ) 尽可能大
    依据 泰勒展开式 f(xk+δ ) = f(xk) + f'(xk)δ,所以只能最大化这个 f'(xk)·δ
    即:δ  要与 f'(xk) 方向一致
     
    # 依据泰勒展开式的 等式,利用这个等于号
    # 假设前提是,在 每次每个元素只能走 1 长度
    怎么使用 Taylor 展开式
    【important】
    鞍点的特点是一二阶导数为0
    是否是极值点的判断方法:
    如果是看三阶导数,它必须也必须为0
    看的是其 四阶导数,判断方法和二阶导一样,如果大于0,为极小值,小于0为极大值
    等于0 就要继续看下去,看 五六阶导数
     
    也就是 泰勒展开式,可以层层展开,直至可以判断出是否是 极值
  • 相关阅读:
    sql2slack alash3al 开源的又个轻量级工具
    pgspider fetchq 扩展docker镜像
    godns 集成coredns 的demo
    godns 简单dnsmasq 的dns 替换方案
    aviary.sh 一个基于bash的分布式配置管理工具
    使用coredns 的template plugin实现一个xip 服务
    nginx 代理 coredns dns 服务
    基于nginx proxy dns server
    几个不错的geodns server
    spring boot rest api 最好添加servlet.context-path
  • 原文地址:https://www.cnblogs.com/jianzhitanqiao/p/5550298.html
Copyright © 2011-2022 走看看