zoukankan      html  css  js  c++  java
  • Bayesian statistics

    文件夹

    1Bayesian model selection(贝叶斯模型选择)

      使用多项式阶数过高会导致过拟合。过低会导致欠拟合。

    正则化參数过小会导致过拟合,过大会导致欠拟合。我们面临一系列不同复杂度的模型,怎样选择,就是模型选择问题。
      一个方法是使用交叉验证(cross-validation)来预计全部备选模型的错误。挑选最好的一个模型。However, this requires fitting each model K times, where K is the number of CV folds.
      一个高效的方法是计算模型的后验:
        

      我们非常easy计算最大后验概率模型:
        
      这就叫贝叶斯模型选择

        

      这个quantity叫marginal likelihood,integrated likelihood,或者模型m的evidence。

    1.1奥卡姆剃刀(Occam’s razor)原理

     One might think that using p(D|m) to select models would always favor the model with the most parameters. This is true if we use p(D|θm^) to select models, where θ^m is the MLE or MAP estimate of the parameters for model m, because models with more parameters will fit the data better, and hence achieve higher likelihood. However, if we integrate out the parameters,rather than maximizing them, we are automatically protected from overfitting: models with more parameters do not necessarily have higher marginal likelihood. This is called the Bayesian Occam’s razor effect, named after the principle known as Occam’s razor, which says one should pick the simplest model that adequately explains the data.
      【在全部可能选择的模型中,能够非常好地解释已知数据而且十分简单才是最好的模型。也就是应该选择的模型。】
        剃须刀图
     
      Bayesian Occam’s razor解释图:D0为真实的观測数据,模型M1最简单。M3最复杂。
      因为简单的模型仅仅能产生简单的数据,复杂的模型參数多,不仅能够产生简单的数据。同一时候能够产生复杂的数据。当给定的一个数据集后,简单的模型因为表现能力差。使用边缘似然函数比較小。同一时候因为过于复杂的模型能够产生很多其它的复杂数据,那么它产生该特定数据的概率就会相对变小,因此它的边缘似然函数同样不大。仅仅有复杂度适中的模型的边缘似然函数最大。


      【如果有K个模型M1,...,Mk,我们想知道模型Mk产生数据D的可能性的大小,即产生数据D的概率是多少,并以此作为模型优劣的标准。

    这个过程叫做模型选择或模型评估。

    2Computing the marginal likelihood (evidence)

      贝叶斯判断中边际似然函数涉及到维数较高的复杂积分的计算, 因而精确地计算边际似然函数往往有困难.常常会选择一种近似方法来预计边际似然函数。

    2-1 BIC approximation to log marginal likelihood

      一个简单流行的近似是贝叶斯信息标准(Bayesian information criterion or BIC),它的形式为:
        BIC-image
      当中, dof是模型的自由度。theta 是模型的MLE.

      一个非常类似的表达是Akaike information criterion or AIC,定义为
         ACI

      这是来源于频率学框架的。不能用来做marginal likelihood的近似判断。
      BIC对參数添加的惩处力度大于户AIC,这使得AIC选择的是更复杂的模型,可是这能导致更好的预測准确性。

    2-2贝叶斯因子

      Suppose our prior on models is uniform,那么模型的选择相当于选择有更高边际似然的模型。
      考虑模型M0,M1,定义贝叶斯因子为两个的比:
        

        

                Jeffreys解释贝叶斯因子的标准

    3先验

      在Bayes 分析中,进行统计判断与决策所依赖的后验分布是以先验分布为基础。因此,怎样获得先验分布是Bayes 方法的最关键问题。

    3-1 确定无信息先验分布的Jeffreys原则

      Jeffreys先验(Jeffreys’ Prior) Jeffreys提出的选取先验分布的原则是一种不变原理,採用Fisher信息阵的平方根作为θ的无信息先验分布。
    Jeffreys 提出了一种基于信息函数的无信息先验分布选择方法,即Jeffreys 原则。较好地攻克了Bayes如果中的一个矛盾,即若对參数θ 选用均匀分布,则其函数g(θ) 往往不是均匀分布。同一时候,该原则给出了寻求先验分布的详细办法。

      Jeffreys原则:
      依照原则决定參数θ 的先验分布为π(θ) ,对于θ 的函数g(θ) 作为參数,依照同一原则决定的η = g(θ) 的先验分布是πg(η) 。则应有关系式:
                

      若选取的π(θ) 符合上式。则用θ 或θ 的函数g(θ) 导出的先验分布总是一致的。
    困难之处在于怎样找出满足上式的π(θ) 。Jeffreys 巧妙的利用了Fisher信息阵的性质。找到了符合要求的π(θ) 。

    引理: 设g(θ) 是θ 的函数,η = g(θ) 与θ 具有同样的维数k ,则有:
            
      当中。 分别表示 的行列式的平方根,|∂g(θ)/∂θ|是((∂g(θ))/∂θ)行列式绝对值。

      由此引理与Jeffreys原则,可取:π(θ)∝|I(θ)|^{1/2}
      该式对标量參数和矢量參数都适用。

      推导:
      p(φ) is non-informative,θ = h(φ) for some function h, should also be non-informative
      let us pick:
      where I(φ) is the Fisher information:
            
      有
      平方并取x的期望,得到
        
        即

      so we find the transformed prior is:
           

      So pθ(θ) and pφ(φ) are the same.

    3-2共轭先验(Conjugate Priors)

      共轭先验是指先验分布和后验分布来自同一个分布族的情况。就是说先验和后验有同样的分布形式(当然。參数是不同的)。这些共轭先验是结合似然的形式推导出来的。
      
      Conjugate prior的意义:
        使得贝叶斯推理更加方便,比方在Sequential Bayesian inference(连续贝叶斯推理)中。得到一个observation之后。能够算出一个posterior(后验)。因为选取的是 Conjugate prior共轭先验。因此后验和原来先验的形式一样。能够把该后验当做新的先验,用于下一次observation,然后继续迭代。

    4Hierarchical Bayes

      计算后验p(θ|D)的一个关键是带超參数η的p(θ|η),如果我们不知道η,能够使用前面的无信息先验,很多其它的贝叶斯方法是通过先验的先验!


            
      这就是层级贝叶斯模型


                

      如果你手头有 N 枚硬币。它们是同一个工厂铸出来的。你把每一枚硬币掷出一个结果,然后基于这 N 个结果对这 N 个硬币的 θ (出现正面的比例)进行推理。然而我们又知道每一个硬币的 p(θ) 是有一个先验概率的。或许是一个 beta 分布。也就是说,每一个硬币的实际投掷结果 Xi 服从以 θ 为中心的正态分布,而 θ 又服从还有一个以 Ψ 为中心的 beta 分布。层层因果关系就体现出来了。进而 Ψ 还可能依赖于因果链上更上层的因素。以此类推。

    5Empirical Bayes

      在分层贝叶斯模型中。我们须要在多层级潜在变量上计算后验。比如。两个层级的模型:
            

      一种经验贝叶斯分析就是用边际分布来预计η, ,比方说能够用
    边际极大似然预计。然后以作为后验分布的预计。

    6Bayesian decision theory

      选择未知的状态/參数/标签,y ∈ Y,然后产生一个观測x ∈ X。然后我们做出决策。选择一个行为a。从行为空间A中选择。损失为L(y, a)。
    比如,使用误分类损失L(y, a) = I(y ≠ a),或者平方损失L(y,a)=(ya)2.

      我们的目标是产生一个决策过程或者策略,δ : X → A,表示每一个可能的输入最佳的行为action。

    最优化,意味着最小化期望损失:
            

      使用贝叶斯方法的决策理论。最优化行为。用于观測x,行为a,最小化后验期望损失:
           

      因此,贝叶斯预计。也称为贝叶斯决策规则(Bayes decision rule)为:
           

    • 基于最小错误率的贝叶斯决策

        以后验概率值的大小做判据
        
              

    • 基于最小风险的贝叶斯决策

        判决根据为对该观測值X条件下各个状态后验概率求加权和的方法
        
             

    λ(i)j表示观測样本X实属类别j被判为i所造成的损失。

    6-1拒绝选择

            

      如上图。分类错误来自于在输入中不同类别在同样空间区域上有重叠,这时候能够採取拒绝分类的方法。即reject option。当样本落在这个区域的时候。就有疑惑的结果留待人类专家来判定。


      引入一个阈值threshold,将最大后验概率小于或者等于该阈值的输入样本X拒绝预測。

      设a = C + 1相当于选择reject action,a ∈ {1, … , C}相当于选择一个类
    定义损失函数为:
            

      λr is the cost of the reject action, and λs is the cost of a substitution error

    6-2The false positive vs false negative tradeoff

      二元决策问题中两类错误:
        1)False Positive 假阳性也被称为误报或者虚警(把“不是”说成“是”),预计量y^=1。真实为y=0
        2)False Negative 假阴性也被称为漏报(把“是”说成“不是”),预计量y^=0,真实为y=1

      损失矩阵:
         

      LFN是false negative的损失。LFP是false positive的损失,则这两个actions的后验期望损失为:
        

    6-2-1完美的ROC曲线

    如果类标签数据集。决策规则δ(x)=l(f(X)>τ,τ是阈值,对于每一个给定的τ能够使用决策规则来计算true positives, false positives, true negatives, 和false negatives各自的数量。


        
    confusion matrix,N+ 是真实数量的阳性, (N_+ ) ̂ 是被声称的阳性, N- 真实数量的阴性,(N_- ) ̂是被声称的阴性。

    TPR(true positive rate)
            
    FPR(false alarm rate)
            

      不单单使用一个固定的阈值τ,而是一系列的τ值时,绘制出将FPR定义为x轴,TPR定义为y轴的曲线,称为ROC曲线:
           

      两个如果的分类系统ROC曲线。A比B效果好。

    左下角:(FPR = 0, TPR = 0),设置τ=1,全部的类别被分为negative
    右上角:(FPR = 1, TPR = 1),设置τ=0。全部的类别被分位positive

      【最好的预測方式是一个在左上角的点,在ROC空间坐标轴(0,1)点。这个代表着100%灵敏(没有假阴性)和100%特异(没有假阳性)。而(0,1)点被称为“完美分类器”。

    一个全然随机的预測会得到一条从左下到右上对角线(也叫无识别率线)上的一个点,这条线上的任一点相应的精确度(ACC)都是50%。


      ROC曲线以下的区域称为AUC,AUC分数越高越好。最大为1.

    6-2-2Precision Recall曲线(查准率-查全率曲线)

      PR曲线在分类、检索等领域有着广泛的使用。来表现分类/检索的性能。


    精度:
      。反映了被分类器判定的正例中真正的正例样本的比重

    召回率:
      ,反映了被正确判定的正例占总的正例的比重

      【如果是分类器的话,通过调整分类阈值,能够得到不同的P-R值。从而能够得到一条曲线(纵坐标为P,横坐标为R)。通常随着分类阈值从大到小变化(大于阈值觉得P)。查准率减小,查全率添加。比較两个分类器好坏时。显然是查得又准又全的比較好,也就是的PR曲线越往坐标(1。1)的位置靠近越好。】

            

              precision-recall曲线。A比B效果好。

    6-2-3F-scores

      在检索系统中。希望检索的结果P越高越好,R也越高越好,但其实这两者在某些情况下是矛盾的。一个综合评价指标定义为F score 或者F1 score:
            

    參考链接:
       贝叶斯统计基础

  • 相关阅读:
    2、词法分析--4、字面值--2、字符串拼接
    2、词法分析--3、标识符和关键字
    2、词法分析-- 1、行结构
    git本机服务器配置(四):git+TortoiseGit+gitblit配置本机服务器
    git本机服务器配置(三):Gitblit的安装
    git本机服务器配置(二):TortoiseGit的安装
    git本机服务器配置(一):git的安装
    python 中 dlib库的安装
    正向代理和方向代理的区别和使用
    php应用路径变量问题总结
  • 原文地址:https://www.cnblogs.com/zhchoutai/p/8757774.html
Copyright © 2011-2022 走看看