zoukankan      html  css  js  c++  java
  • NNPRChap10 贝叶斯技术(4)alpha和beta的置信度

    前面假定超参数imageimage 是已知的,实际上这不太可能,只是有些情况下对噪声水平image有些了解。我们也知道,正确的贝叶斯方法在处理这些未知参数时,就是对它们积分,这样最终预测函数就与它们无关了。例如,网络权重的后验分析计算方法如下

                      image    (1)

    要解上面问题,方法还是那两种套路:1)解析方法:通过积分直接计算式1。留到本章第5节来介绍;2)近似方法:MacKay(1992a,1992d)研究此问题。这里先学习一下后者。

    1)假设imageimage 附近呈现尖峰状,这样式1可近似为下式。也就是说,先求解image找到imageimage 的最大后验概率值image,然后直接带入下式计算。

              image    (2)

    2)那么image怎么求呢,还是利用贝叶斯准则构造下式求解。注意,这里要选择合适的先验image ,因为它代表了超参数的先验,因此也称为超先验(hyperprior)。

              image             (3)

     

    上面介绍了大体流程,下面介绍image具体怎么求。

    1)首先,如何选择先验image呢?当没有任何概念时,选择的先验要所有参数值重要度相同,称为无信息先验。实际上,imageimage 是尺度参数(scale parameters),因为它们分别决定image 和噪声的尺度。这里,因为没有不知道什么值合适,因此假设超先验imageimageimage值不敏感。

    2)其次,由于式3中分母与超参无关,因此image可通过最大化image 得到。image也称为imageimage 的置信度(evidence)。

     

    到此,大家是不是能体会到一点层次化求解的意思呢?第一层求权重的分布(式1);第二层求超参的分布;且第二层中的置信度image是前一层贝叶斯公示中的分母。这种结构就是一个层次化模型(hierarchical models,这其实也是目前很热的Graphical Modes研发方向搞的内容。

     

    那么image怎么求?首先构建它的表达式

    1)首先有下式(这里利用了权重先验与image无关,似然与image无关的信息)

                      image          (4)

    2)利用前面介绍的下面几个式子

          权重先验的指数形式image

          似然分布的指数形式      image

          以及 imageimage

    带入式4得

              image

    其中image 在选定的先验和噪声模型下的解也在前面讨论过了image  ;  image

    若利用高斯近似权重的后验分布,那么image

    3)得到置信度的log

                     image    (5)

    到此,image表达式的推导完,应该说是很复杂的,具体怎么求?

    首先考虑对image求解,以找到最大值。

    1)求imageimage的微分

         A)A可写为image ,其中image 是非正则化误差函数的赫森矩阵;

         B)若 H的特征值为image,则A的特征值为image

         C)从而,有

               image image    (6)

         注意:这里假设特征值image 不依赖于image

              a)image 是权重的二次函数(如线性网络,误差为SSE)时,赫森矩阵是常数,上面假设成立,式6正确。

              b)对于非线性网络,赫森阵是权重的函数。因为赫森阵是在image 处计算,而image 依赖于image,那么上面假设不成立。式6不

                  正确,因为它忽略了image

         D)在上面假设下,式5对image的最大值解为

                 image     (7)

                 image    (8)

    对于上的结果,前人(Gull, 1989).已经给出了简单优美的解释:最大可能权重image的值代表了在多大程度上权重值来自于数据中的信息,没有任何数据时,image =0。。假设特征值为正,那么image 取值范围为(0,1)。它的几何解释为:旋转权重空间左边轴,以与赫森矩阵H的特征向量方向对齐。示意图1,圆环代表image 的等高线(对应先验piror),椭圆代表image 的等高线(对应似然likelihood)

    1)在image 的方向上(图1中W1方向):式8中求和项接近于1;权重主要由数据决定。

    2)在image 的方向上(图1中W2方向):式8中求和项主要由image决定;权重主要由先验决定。

                              image 图1

    3)因此image 度量了有效权重的个数,这些权重的值由数据决定而不是先验,因此也称为well-determined parameters

    接下来研究imageimage 求解以找到最大值的问题。

    1)因为imageimage 特征值,因此它与image成比例,即满足image ,从而有

            image      (8)

    2)上面的东东会使式5在最大值处满足如下条件

           image       (9)

    3)由image 及式7和式9可知,总误差S(w)在image处满足image

    到此,所有的分析都利用单高斯分布来近似权重的后验分布。这并不足够合理,因为对应非线性网络其正则化误差S(w)会有很多极小值。MacKay(1992d)采用的方法,是选择一系列特殊的权重image来预测,它们对应于S(w)的特殊的极小点。因此,可以选取合适的imageimage值(不同的极小点可能会要求不同的值)。这时,式4的积分就不是对整个权重空间进行的,而是对这些极小点领域范围进行积分。

    上面的思想很好,具体如何实现呢,即如何找到最优imageimage以及image?一个简单的方法就是迭代求解,由式7和9有

                 image

    这里,进一步利用Chap10第3节中图3的例子来讲述另一种方法,即利用置信度方法(evidence approach)来确定imageimage,见图2和图3。对比两图,可发现:

    1)置信度的最大值近似发生在满足image 的地方

    2)注:两图中image设为其真值;image值是通过利用精确解析方法(exact analytical  methods)计算赫森矩阵,然后找到其特征值谱而得到的。

                  image                                          image

       图2(横坐标是lna,横线对应r,曲线对应imageimage设为其真值)           图3(横坐标是lna,曲线是a的logevidence(lnp(D|a)),image设为其真值)

    得到最大化置信度的imageimage值之后,就可以构造置信度image 的高斯近似。

     

    •    

  • 相关阅读:
    【Linux】没有网的情况下如何安装GCC
    【PL/SQL】PLSQL Developer注册码
    【JS】字符串操作
    【java】svn显示×
    线段树
    病毒感染者
    并查集
    最小的N个和(堆)
    priority_queue的用法
    打印杨辉三角
  • 原文地址:https://www.cnblogs.com/pegasus/p/1936583.html
Copyright © 2011-2022 走看看