zoukankan      html  css  js  c++  java
  • 极大似然估计&最大后验概率估计

    https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/

    http://www.mi.fu-berlin.de/wiki/pub/ABI/Genomics12/MLvsMAP.pdf

    经验风险最小化:

    min limits_{fin mathcal{F}} frac{1}{N} sum_{i=1}^{N} L(y_i,f(x_i))

    结构风险最小化:

    min limits_{fin mathcal{F}} frac{1}{N} sum_{i=1}^{N} L(y_i,f(x_i))+lambda J(f)

    李航博士《统计学习方法》中第一章第九页中有两个论断

    1 当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。

    2 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计

    证明论断1:

    极大似然估计:对于观测的随机变量D,其总体分布为

    P(D;	heta)

    S为抽样得到的样本,

    S=(s_1,s_2,...,s_N)

    样本是独立同分布得到的,因此样本的分布为

    L(	heta) = prod_{i=1}^{N} P(s_i;	heta)

    S=(s_1,s_2,...,s_N)
    确定,则上式可以看做是
    	heta
    的函数。
    这个函数反映了在观察结果已知的情况下,
    	heta

    的“似然程度”,因此上式被叫做似然函数。用似然程度最大的那个

    	heta_{*}

    去做

    	heta

    的估计,这种估计方法叫做"极大似然估计"。取对数,极大平均似然函数为:

    max log L(	heta)=max frac{1}{N}sum_{i=1}^{N}log P(s_i;	heta)

    上式等价于

    min -log L(	heta)=min frac{1}{N}sum_{i=1}^{N} -log P(s_i;	heta)

    在统计学习中,S就是样本,

    s_{i}=(x_i,y_i).x_imbox{为特征,}y_i{为标签}

    当模型是条件概率分布时,则

    P(s_i;	heta)=P(y_i|x_i;	heta)
    min -log L(	heta)=min frac{1}{N}sum_{i=1}^{N} -log P(y_i|x_i;	heta) -----(1)

    当损失函数是对数损失函数(

    L(Y,P(Y|X)) = -log P(Y|X)

    ),则最小化经验风险的公式为

    min limits_{fin mathcal{F}} frac{1}{N} sum_{i=1}^{N} L(y_i,f(x_i))
    =min limits_{fin mathcal{F}} frac{1}{N} sum_{i=1}^{N} L(y_i,p(y_i|x_i;	heta))
    =min limits_{fin mathcal{F}} frac{1}{N} sum_{i=1}^{N} -log p(y_i|x_i;	heta) -----(2)

    对比(1)(2)两个公式,论断1得证。

    证明论断2

    极大似然估计将

    	heta

    看做是一个确定但未知的常量,而贝叶斯学派则认为

    	heta

    可以看做一个随机变量,从这个视角出发可得到条件概率

    P(	heta|S)

    因此利用贝叶斯公式得到

    P(	heta|S)=frac{P(S|	heta)P(	heta)}{P(S)}

    最大后验概率估计是要最大化

    P(	heta|S)

    这个后验概率,因此

    max P(	heta|S) = max P(S|	heta)P(	heta)

    上式与极大似然估计相比,只多了个

    P(	heta)

    ,左边和极大似然估计一样,因此对左边取对数处理求平均似然最大

    max frac{1}{N}sum_{i=1}^{N} log P(s_i|	heta)+log P(	heta)

    当模型是条件概率分布时,则

    P(s_i;	heta)=P(y_i|x_i;	heta)

    因此,

    max frac{1}{N}sum_{i=1}^{N} log P(y_i|x_i;	heta)+log P(	heta)

    取负号,转换为

    min frac{1}{N}sum_{i=1}^{N} -log P(y_i|x_i;	heta)-log P(	heta)   -----(3)

    当损失函数是对数损失函数(

    L(Y,P(Y|X)) = -log P(Y|X)

    ),模型是条件概率分布时,

    结构风险最小化公式
    min limits_{fin F} frac{1}{N} sum_{i=1}^{N} L(y_i,f(x_i))+lambda J(f)
    =min limits_{fin F} frac{1}{N} sum_{i=1}^{N} -log P(y_i|x_i;	heta)+lambda J(f)     -----(4)
    比较公式(3)(4),则当
    lambda J(f) = -log P(	heta)

    两者等价,论断2得证。

    (汉武提问,

    lambda

    在(4)中没有出现,其实

    lambda

    为超参,在模型中一般首先指定,如果为1/2 , 则

    -1/2*2log P(	heta)

    ), 所以无论怎么取,都可以得到对应的使得等价。

  • 相关阅读:
    代码签名证书原理和作用
    安装SSL证书有什么作用?
    有关如何修复Android手机上的SSL连接错误的快速指南
    可信时间戳如何生成?时间戳基本工作原理
    全球通用的数字证书产品选购指南
    国密SSL证书申请免费试用
    国密SSL证书免费试用申请指南
    哈希算法的原理和用途详解
    https证书安装无效的主要原因
    Anatomy of a Database System学习笔记
  • 原文地址:https://www.cnblogs.com/yxzfscg/p/4867673.html
Copyright © 2011-2022 走看看