zoukankan      html  css  js  c++  java
  • 吴恩达“机器学习”——学习笔记三

    牛顿方法(此方法为续学习笔记二)

    如果我们想找到一个x,使得f(x)=0。那么先随机找一个x_0,在该点处做切线,这条切线与x轴交点为x_1,在x_1处做f的切线,以此类推。

    记x_0与x_1之间的距离为Delta。那么,

    (将自变量改为theta),。因为Delta是两个相邻自变量的距离,那么,

    ,此式可以推广为

    记f为ln‘L,即f为似然韩式的导数,那么,

    一般化的牛顿方法中theta是一个向量,可以写成

    。其中,H是海森矩阵(Hession matrix)。该矩阵满足下列式子,

    。牛顿方法比梯度上升算法能更快的求出theta,更快的对logistics回归模型进行拟合。

     指数分布族

    满足该式的,成为指数分布族。eta成为自然参数,T(y)为充分统计量,通常T(y)=y。固定函数a,b,T,那么这就是以eta为参数的概率分布集。

    伯努利和高斯分布都属于指数分布族

    伯努利

    ,那么对应关系为

    。通过变形,可以得到,

    高斯分布

    在高斯分布进行最大似然估计的时候,sigma对于最后所要求的结果没有影响,所以假设sigma为1,即高斯分布的方差为1。

    ,对应关系为

    所以伯努利分布和高斯分布都是指数分布族。

    广义线性模型

    使用最小二乘法(y属于实数)和logistics回归方法(y取0,1)进行建模,都属于广义线性模型。

    假设

    1.

     2.给定一个x,我们的目标是求出E[T(y)|x],即h(x)=E[T(y)|x]

    3.

     由以上得知,伯努利分布满足第一点。根据第二点,对于固定的theta和x,我们的目标是求出h(x)=E[T(y)|x],即

    ==,根据第三个条件,即为

    此处跳过高斯分布,进行一个更加复杂例子的讲解。

    多项式分布(Multinomial)

    ,参数为,,可以把最后一个参数写成1减去前k-1个参数得到的,所以,实际上,参数数量只有k-1个。

    接下来把多项式分布写成指数分布族的形式。

    定义k个k-1维的列向量

    引入指示函数(indicator function notation)

    1{true}=1,1{false}=0

    规定T(y)i=1{y=i},i:T(y)的第i个元素。那么,可以得到

    其中,那么,

    (i=1,2,...,k-1)

    那么此时的学习算法为,

    这类算法成为softmax regression,它是logistics回归的推广,因为后者处理的y只有两个结果,前者处理的y有k个结果。

  • 相关阅读:
    Linux关闭jetty服务器脚本
    TreeMap 源码解读
    LinkedHashMap 源码解读
    HashTable 源码解读
    MappedByteBuffer文件句柄释放问题
    HashMap源码解读
    Java 对象创建过程
    java 虚拟机内存介绍
    dubbo 部署
    kotlin 学习入门
  • 原文地址:https://www.cnblogs.com/xxp17457741/p/8344045.html
Copyright © 2011-2022 走看看