zoukankan      html  css  js  c++  java
  • 点估计及矩估计的一些理解

           点估计指的是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。在这个定义中,总体参数也即是总体分布的参数,一般我们在讨论总体分布的时候,只有在简单随机样本(样本独立同分布)情况下才有明确的意义,总体分布才能决定样本分布,所以下文样本中各随机变量均为独立同分布。在大数据中分析中,一般都假设样本是独立同分布的。

           矩估计方法是点估计中的一种,其原理就是构造样本和总体的矩,然后用样本的矩去估计总体的矩。设有样本X_{1},...,X_{n},而k为自然数,则样本矩做如下定义

                                                                              a_{nk}=frac{1}{n}sum_{i=1}^{n}X^{k}_{i}

                                                                             m_{nk}=frac{1}{n}sum_{i=1}^{n}(X_{i}-ar{X}_{n})^{k}

            其中a_{nk}称为k阶样本原点矩m_{nk}称为k阶样本中心距ar{X}_{n}为样本均值。a_{nk}m_{nk}可以由样本计算得到确定的值。接下来再构造总体X的矩。在使用矩估计方法时,一般要求知道总体的分布类型,这样才能构造包含待估参数的矩。

            当总体为连续分布时,设f(x,	heta )为总体分布的概率密度函数,	heta为总体分布中的待估参数(假设此处总体分布中只有一个待估参数	heta),则总体的k阶原点矩alpha _{k}、k阶中心距mu_{k}分别定义为如下形式

                                                                            alpha _{k}=int_{-infty }^{+infty}x^{k}f(x,	heta )dx

                                                                            mu _{k}=int_{-infty }^{+infty}(x-E(X))^{k}f(x,	heta )dx

           当总体为离散分布时,设P(X=X_{i},	heta )X=X_{i}时的概率,则总体的k阶原点矩alpha _{k}、k阶中心距mu_{k}分别定义为如下形式

                                                                         alpha _{k}=E(X^{k})=sum_{i=1}^{n}X_{i}^{k}P(X=X_{i},	heta )

                                                         mu _{k}=E(X-E(X))^{k}=sum_{i=1}^{n}(X_{i}-E(X))^{k}P(X=X_{i},	heta )

           在用样本矩估计总体矩时,我们还需要知道样本矩对总体矩而言是无偏估计,还是非无偏估计,这样有助于我们把握估计偏差,下面以样本一阶原点矩a _{n1}、二阶中心矩m _{n2}为例来估计总体的一阶原点矩alpha _{1}mu_{2},观察它们是否为无偏估计

                                                                  E(a_{n1})=frac{1}{n}E(sum_{i=1}^{n}X_{i})=frac{1}{n}sum_{i=1}^{n}E(X) =alpha _{1}

            可以看到,样本一阶原点矩a _{n1}为总体的一阶原点矩alpha _{1}的无偏估计,再看二阶中心矩的估计

                                                           E(m_{k2})=frac{1}{n}E(sum_{i=1}^{n}(X_{i}-ar{X_{n}})^{2}) =frac{1}{n}E(sum_{i=1}^{n}(X^{2}_{i}-2X_{i}ar{X_{n}}+ar{X_{n}^{2}}))

                                                                         =frac{1}{n}sum_{i=1}^{n}E(X_{i}^{2})-frac{2}{n}ar{X_{n}}E(sum_{i=1}^{n}X_{i})+E(ar{X_{n}^{2}})

                                                                         =frac{1}{n}sum_{i=1}^{n}E(X_{i}^{2})-E(ar{X_{n}^{2}})

            下面分别就E(X_{i}^{2})项和E(ar{X_{n}^{2}})项进行计算

                                                                       mu _{2}=sum _{i=1}^{n}(X_{i}-E(X))^{2}P(X=X_{i},	heta )

                                                                             =sum _{i=1}^{n}(X_{i}^{2}-2X_{i}E(X)-E^{2}(X))P(X=X_{i},	heta )                                                                                                                       =sum _{i=1}^{n}X_{i}^{2}P(X=X_{i},	heta )-2E(X)sum _{i=1}^{n}X_{i}P(X=X_{i},	heta )-E^{2}(X)sum _{i=1}^{n}P(X=X_{i},	heta )                                                                            

                                                                             =E(X_{i}^{2})-E^{2}(X)

              因此可得

                                                                   E(X_{i}^{2})=mu _{2}+E^{2}(X)=mu _{2}+alpha^{2} _{1}                                                                 (1)

             样本统计量ar{X}_{n}的方差Var(ar{X_{n}})

                                                                      Var(ar{X_{n}})=E(ar{X_{n}}-E(ar{X_{n}}))^{2}

                                                                                      =E(ar{X_{n}^{2}}-2ar{X_{n}}E(ar{X_{n}})+E^{2}(ar{X_{n}}))^{2}

                                                                                      =E(ar{X_{n}^{2}})-E^{2}(ar{X_{n}})

             可得

                                                                         E(ar{X_{n}^{2}})=Var(ar{X_{n}})+E^{2}(ar{X_{n}})

             由于ar{X_{n}}=frac{1}{n}sum_{i=1}^{n}X_{i},且样本中各变量为独立同分布,所以

                                                                Var(ar{X_{n}})=Var(frac{sum_{i=1}^{n}X_{i}}{n})=frac{1}{n}Var(X)=frac{1}{n}u_{2}

                                                                  E^{2}(ar{X_{n}})=E^{2}(frac{sum_{i=1}^{n}X_{i}}{n})=alpha ^{2}_{1}

             这样就得到

                                                                    E(ar{X_{n}^{2}})=frac{1}{n}mu _{2}+alpha^{2} _{1}                                                                                     (2)

             由式(1)和式(2),可以得到

                                                                   E(m_{k2})=frac{n-1}{n}mu _{2}

            可以看到,样本的二阶中心矩并非总体的二阶中心矩的无偏估计,但是我们可以采用因子frac{n-1}{n}来调整这个估计偏差,但一般在应用上不去做调整而是容忍一些偏差存在,在n较大时,这个偏差对于应用无损。

            以上的内容只是计算过程推导,而我们更应该关注的是这些矩在实际应用中表示的是什么含义,这更有助于我们分析问题。依据总体的k阶原点矩和中心距,还可以定义以下参数,它们能反应总体分布的一些特征

                                   偏度(Skewness):eta _{1}=mu _{3}/mu _{2}^{2/3},反映总体分布的“非对称性”或“偏倚性”

                                   峰度(Kurtosis)    :eta _{2}=mu _{4}/mu _{2}^{2}  ,反映总体分布陡峭或平滑的程度

            

                                                                                         

            

                                                 

  • 相关阅读:
    允许Traceroute探测 (在防火墙中禁用Time Exceeded类型的ICMP包)
    fatal: not a git repository (or any of the parent directories): .git
    CentOS 7 配置白名单
    CentOS 7 找不到 iptables 文件(需要安装 iptables 服务)
    Grafana 匿名访问(免登录)
    How to install GCC/G++ 8 on CentOS
    【C++ Primer | 16】std::move、std::forward(完美转发)
    安利一个dll库缺失下载的网站
    google glog 源码编译踩坑 以及编译全流程
    VS工程不产生db后缀的文件
  • 原文地址:https://www.cnblogs.com/hgz-dm/p/10292943.html
Copyright © 2011-2022 走看看