zoukankan      html  css  js  c++  java
  • 逻辑斯蒂回归3 -- 最大熵模型之改进的迭代尺度法(IIS)

    声明:

             1,本篇为个人对《2012.李航.统计学习方法.pdf》的学习总结,不得用作商用。欢迎转载,但请注明出处(即:本帖地址)。

             2,因为本人在学习初始时有非常多数学知识都已忘记。所以为了弄懂当中的内容查阅了非常多资料,所以里面应该会有引用其它帖子的小部分内容,假设原作者看到能够私信我,我会将您的帖子的地址付到以下。

             3。假设有内容错误或不准确欢迎大家指正。

             4。假设能帮到你,那真是太好了。

    IIS的推导过程

             IIS是一种最大熵学习模型的最优化算法。其推导步骤例如以下:

             

             目标是通过极大似然预计学习模型參数求对数似然函数的极大值

             IIS的想法是:如果最大熵模型当前的參数向量是λ = (λ1, λ2, …, λn)T,我们希望找到一个新的參数向量λ + δ= (λ1+δ1, λ2+δ2, …, λn+δn)T。使得模型的对数似然函数值增大。假设能有这样一种參数向量更新的方法F:λ ->λ+δ,那么就能够反复使用这一方法,直至找到对数似然函数的最大值。

             对于给定的经验分布,模型參数从λ到λ+δ,对数似然函数的该变量是

                      

                      PS:上面 >= 的推导是依据不定时:-loga >= 1 - a, a > 0

             将上述求得的结果(最后一行)记为A(δ| λ),于是有:

                      L( λ+ δ ) – L( λ ) >= A(δ | λ)

             为了进一步减少这个下界,即缩小A(δ | λ)。引入一个变量:

                      

             由于fi是二值函数,故f#(x,y)表示的是全部特征(x, y)出现的次数,然后利用Jason不等式,可得:

                      

           我们把上述式子求得的A(δ | λ)的下界记为B(δ | λ),即:

                      

           相当于B(δ | λ)是对数似然函数添加量的一个新的下界,可记作:L(λ+δ)-L(λ)  >= B(δ | λ)。

             接下来,对B(δ| λ)求偏导,得:

                      

       此时得到的偏导结果仅仅含δ,除δ之外不再含其他变量,令其为0,可得:

                      

       从而求得δ,问题得解。

    IIS算法描写叙述

             输入:

                       特征函数f1, f2, …,fn;经验分布,模型Pλ(y|x)

             输出:

                       最优參数值λi*。最优模型Pλ

             解:

                       1,对全部i∈{1, 2, …, n}。取初值λi = 0

                       2,对每一i∈{1, 2, …, n}:

                                a)令δi是例如以下方程(这里将其称作方程一)

                                        

                                         的解,这里:

                                b)更新λi的值:λi <- λi + δi

                       3,假设不是全部λi都收敛,则反复步骤2。

             这一算法的关键步骤是a)。即求解a)中方程的δi。

             假设f#(x, y) 是常数。即对不论什么x, y。有f#(x,y) = M,那么δi能够显示的表示成:

                      

             假设f#(x, y) 不是常数,那么必须通过数值计算求δi,而简单有效的方法是牛顿法。以g(δi) = 0,表示上面的方程一,牛顿法通过迭代求的δi,使得g(δi*)= 0。迭代公式是:

                      

             求得了δ。便相当于求得权值λ,终于将λ 回代到下式中:

                      

           即得到最大熵模型的最优预计。

    參考:

    http://blog.csdn.net/v_july_v/article/details/40508465?

    utm_source=tuicool&utm_medium=referral

  • 相关阅读:
    局部加权回归、欠拟合、过拟合(Locally Weighted Linear Regression、Underfitting、Overfitting)
    损失函数(Loss Function)
    线性回归、梯度下降(Linear Regression、Gradient Descent)
    从BSP模型到Apache Hama
    Apache Hama安装部署
    C#中的面向对象编程
    0<Double.MIN_VALUE
    Java方法的参数传递方式为: 值传递
    数据取对数的意义
    UBuntu安装配置记录
  • 原文地址:https://www.cnblogs.com/mfmdaoyou/p/7110139.html
Copyright © 2011-2022 走看看