zoukankan      html  css  js  c++  java
  • R Akaike information criterion,AIC,一个越小越好的指标

      Akaike information criterion,AIC是什么?一个用来筛选模型的指标。AIC越小模型越好,通常选择AIC最小的模型。第一句话好记,第二句话就呵呵了,小编有时候就会迷惑AIC越大越好还是越小越好。所以,还是要知其所以然的。

      在AIC之前,我们需要知道Kullback–Leibler information或 Kullback–Leiblerdistance。对于一批数据,假设存在一个真实的模型f,还有一组可供选择的模型g1、g2、g3…gi,而K-L 距离就是用模型 gi 去估计真实模型 f 过程中损失的信息。可见K-L 距离越小,用模型 gi 估计真实模型 f 损失的信息越少,相应的模型 gi 越好。

      然后,问题来了。怎么计算每个模型 gi 和真实模型 f 的距离呢?因为我们不知道真实模型 f,所以没办法直接计算每个模型的K-L距离,但可以通过信息损失函数去估计K-L距离。日本统计学家Akaike发现log似然函数和K-L距离有一定关系,并在1974年提出Akaike information criterion,AIC。通常情况下,AIC定义为:AIC=2k-2ln(L),其中k是模型参数个数,L是似然函数。

      -2ln(L)反映模型的拟合情况,当两个模型之间存在较大差异时,差异主要体现在似然函数项-2ln(L),当似然函数差异不显著时,模型参数的惩罚项2k则起作用,随着模型中参数个数增加,2k增大,AIC增大,从而参数个数少的模型是较好的选择。AIC不仅要提高模型拟合度,而且引入了惩罚项,使模型参数尽可能少,有助于降低过拟合的可能性。然后,选一个AIC最小的模型就可以了。

      然而,咱们平常用的最多的SPSS软件却不直接给出AIC。不过不用担心,以线性回归为例,SPSS虽不给出AIC,但会给出残差平方和,即残差Residual对应的Sum of Squares。然后,AIC=nln(残差平方和/n) 2k。其中模型参数个数k包括截距项和残差项,其中残差项往往被忽略。

     

    比如,针对n=21的数据,某线性模型纳入2个自变量x1和x2,k应为4。从SPSS给出的方差分析表,可知AIC=21*ln(21.809/21) 2*4=8.7941。

     

     

    平方和

    df

    均方

    F

    Sig

    回归

    240.153

    2

    120.076

    99.103

    0.000

    残差

    21.809

    18

    1.212

     

     

    总计

    261.962

    20

     

     

     

     

    除AIC之外,还有很多模型选择的指标,比如和AIC联系比较密切的BIC,我们会在以后的文章和大家讨论。

  • 相关阅读:
    java框架
    MVC编程模式
    java各版本简单对比
    java设计模式
    ES中TF-IDF算法
    es分词器
    java应用零停机,时间索引重建(reindex)
    Spring源码由浅入深系列一 简介
    Spring源代码解析(收藏)
    spring源码读书笔记
  • 原文地址:https://www.cnblogs.com/jiaxinwei/p/11718232.html
Copyright © 2011-2022 走看看