zoukankan      html  css  js  c++  java
  • 斯坦福公开课4:牛顿方法

     北京理工大学计算机专业2016级硕士在读,方向:Machine Learning,NLP,DM

    本讲大纲:

    1.牛顿方法(Newton’s method) 
    2.指数族(Exponential family) 
    3.广义线性模型(Generalized linear models)


    牛顿法

    假设有函数:这里写图片描述,我们希望找到满足这里写图片描述这里写图片描述值. 这里这里写图片描述是实数. 
    牛顿方法执行下面的更新: 具体原理可参考文章《Jacobian矩阵和Hessian矩阵》
    这里写图片描述 
    下图为执行牛顿方法的过程: 
    这里写图片描述 
    简单的来说就是通过求当前点的导数得到下一个点.用到的性质是导数值等于该点切线和横轴夹角的正切值.

    这里写图片描述,我们可以用同样的算法去最大化这里写图片描述 
    这里写图片描述

     

    牛顿方法的一般化: 
    如果这里写图片描述是一个向量,那么: 
    这里写图片描述 
    其中,这里写图片描述这里写图片描述这里写图片描述的偏导数; 
    H称为海森矩阵(Hessian matrix),是一个n*n的矩阵,n是特征量的个数,并且这里写图片描述

    牛顿方法的收敛速度比批处理梯度下降快很多,很少次的迭代就能够非常接近最小值了;但是当n很大时,每次迭代求海森矩阵和逆代价是很大的。


     

     

    指数族

    对P(y| x;θ)建模:

     

     

    1. y∈R:高斯分布---> 最小二乘法
    2. y∈{0,1}:伯努利分布---> Logistic回归 
     
        Binomial( φ ) = P( y=1 | φ ) = φ  一类伯努利分布
        N(  μ,σ2 )  一类高斯分布
        以上分布都是指数分布族的特例
    指数族形式: 
    这里写图片描述
    η被称为分布的自然参数(natural parameter)
    T(y)是充分统计量(sufficient statistic)(对于我们考虑的分布来说,通常T(y)=y);
    a(η)是日志分配函数(log partition function),e-a(η)是一个规范化常数,使得分布的和为1. 
    给定函数T,a,b,通过改变参数η得到不同的分布。
     
    下面展示伯努利(Bernoulli)高斯分布(Gaussian distribution)都是指数分布族的特例:
    • 伯努利分布可以写成: 
    这里写图片描述 
    因此,令这里写图片描述(有趣地发现其反函数为这里写图片描述这里写图片描述),并且, 
    这里写图片描述 
    • 高斯分布: 
    回忆我们对线性回归求导时,方差对我们最终结果并没有任何影响.为了使问题简化,令这里写图片描述于是有, 
    这里写图片描述 
    得: 
    这里写图片描述
    指数分布族还包括很多其他的分布: 
    多项式分布(multinomial)  : 对k个结果的事件建模
    泊松分布(poisson):用于计数过程建模 
    伽马分布(gamma),指数分布(exponential):用于对连续非负的随机变量进行建模 
    β分布Dirichlet分布:对小数建模
    Wishart分布:协方差矩阵的分布
     
     

    广义线性模型 (GLM)

    为了导出GLM,作三个假设: 
    (1)这里写图片描述 
    (2)给定x,我们的目标是预测T(y)的预期值. 在大部分例子中,我们有T(y)=y,因此意味着我们通过学习得到的假设满足这里写图片描述(这个假设对logistic回归和线性回归都成立) 
    (3)自然参数和输入变量是线性相关的,也就是说这里写图片描述(自然参数大多是实数,如果自然参数是向量,则这里写图片描述
    3.1普通的最小二乘法 
    为了说明普通的最小二乘法是GLM的特例,设定目标变量y(在GLM术语中叫响应变量-response variable)是连续的,并且假设服从高斯分布这里写图片描述,高斯分布写成指数族的形式,有这里写图片描述得到: 
    这里写图片描述
    3.2 logistic回归 
    考虑logistic,我们感兴趣的是二元分类,也就是说这里写图片描述很容易想到指数分布族的伯努利分布,有这里写图片描述,同理得到: 
    这里写图片描述
    正则响应函数(canonical response function):这里写图片描述 
    正则连接函数(canonical link function):这里写图片描述
     

    3.3 softmax 回归 

    当分类问题的y取值不止两个时,我们需要采用多项式分布(multinomial distribution).
    在推导多项式分布的GLM之前,先把多项式分布表达成指数族.为了参数化多项式分布的k各可能结果,有人可能会用k个参数来说明每一种情况的可能性,但是这些参数是冗余的,并且并不是独立的(由于知道任何其中的k-1个,剩下的一个就可以求出,因为满足
    这里写图片描述). 因此我们用k-1个参数这里写图片描述对多项分布进行参数化,
    这里写图片描述
    这里T(y) <> y。
     
    定义这里写图片描述,如下, 
    这里写图片描述
    介绍一个很有用的记号(指示函数),这里写图片描述,例如1{2=3}=0,1{3=5-2}=1. 
    因此T(y)和y的关系为这里写图片描述

    并且有这里写图片描述,因此: 
    这里写图片描述

    链接函数为,这里写图片描述,为了方便,定义这里写图片描述.

    可得: 
    这里写图片描述 
    因此这里写图片描述,反代回去得到响应函数: 
    这里写图片描述

    从η到这里写图片描述的映射叫做softmax函数.

    根据假设3,这里写图片描述得到: 
    这里写图片描述

    这个应用于分类问题(当这里写图片描述),叫做softmax回归(softmax regression).是logistic回归的推广.

    这里写图片描述

    与最小二乘法和logistic回归类似, 
    这里写图片描述

    再通过梯度上升或者牛顿方法求出θ.


    补充: 概率分布函数、概率密度函数、概率质量函数

    • 概率分布函数. Accumulative Distribution Function. ADF(X可以是连续的, 也可以是离散的随机变量.

     

    • 概率密度函数. Probability Density Function. PDF.(为连续随机变量定义的)
    它本身不是一个概率值,可以大于1,在x积分后才是概率值。
    • 概率质量函数. Probability Mass Function. PMF. (为离散型随机变量定义的)

     

    Tips:
    1、它本身就是一个概率值.对于连续型随机变量, 它任意一个确定x值的概率值都是0, 即:
    2、而对离散型随机变量, 它在任意一个x值的概率值就是它的PMF.

    补充:统计中的分布

    1. 伯努利分布(两点分布、0-1 分布
    • 描述的是一种随机试验(结果只有成功或失败,可能性是固定的p)发生的概率,属于离散型概率分布
    • 如果试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验
    • 进行一次伯努利试验,成功(X=1)概率为p(0<=p<=1),失败(X=0)概率为1-p,则称随机变量X服从伯努利分布。
    • 伯努利试验是只有两种可能结果的单次随机试验,即对于一个随机变量X而言:
    • 概率质量函数     其中 k=0,1
    • 期望:
    • 方差:operatorname{var}X = sum_{i=0}^1(x_i-E[X])^2f_X(x)= (0-p)^2(1-p) + (1-p)^2p = p(1-p) = pq
    2. 二项分布(n 重伯努利分布)
    • 二项分布(Binomial distribution)是n重伯努利试验成功次数的离散型概率分布
    • 如果试验E是一个n重伯努利试验,每次伯努利试验的成功概率为p,X代表成功的次数,则X的概率分布是二项分布,记为X~B(n,p),其概率质量函数

     

     

    • 二项分布名称的由来,是由于其概率质量函数中使用了二项系数,该系数是二项式定理中的系数,二项式定理由牛顿提出:

     

    • 二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。
    3.高斯分布(正态分布)

     

    • 若随机变量X服从一个数学期望μ、标准方差σ2的高斯分布,记为:
    X∼N(μ,σ2),

     

    • 其概率密度函数
    f(x) = {1 over sigmasqrt{2pi} }\,e^{- {{(x-mu )^2 over 2sigma^2}}}
     
    4.多项分布

    • 多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个,如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。
    • 扔骰子是典型的多项式分布。扔骰子,不同于扔硬币,骰子有6个面对应6个不同的点数,这样单次每个点数朝上的概率都是1/6(对应p1~p6,它们的值不一定都是1/6,只要和为1且互斥即可,比如一个形状不规则的骰子),重复扔n次,如果问有k次都是点数6朝上的概率就是
    • 多项式分布一般的概率质量函数为:

  • 相关阅读:
    pip不是内部或外部命令也不是可运行的程序或批处理文件的问题
    动态规划 leetcode 343,279,91 & 639. Decode Ways,62,63,198
    动态规划 70.climbing Stairs ,120,64
    (双指针+链表) leetcode 19. Remove Nth Node from End of List,61. Rotate List,143. Reorder List,234. Palindrome Linked List
    建立链表的虚拟头结点 203 Remove Linked List Element,82,147,148,237
    链表 206 Reverse Linked List, 92,86, 328, 2, 445
    (数组,哈希表) 219.Contains Duplicate(2),217 Contain Duplicate, 220(3)
    重装系统
    java常用IO
    端口
  • 原文地址:https://www.cnblogs.com/flyfatty/p/6597538.html
Copyright © 2011-2022 走看看