clc clear close all R3 = binornd(100,0.5,100,1); R4 = binornd(1000,0.5,1000,1); R5 = binornd(10000,0.5,10000,1); figure subplot(1,3,1) histfit(R3) title('N = 100') subplot(1,3,2) histfit(R4) title('N = 1000') subplot(1,3,3) histfit(R5) title('N = 10000')
我们的R3,R4,R5分别是从N=100,1000,10000次二项分布中生成的,清晰的看到随着N的增加,这个分布越来越接近我们这个具有代表性的的这个正态分布了。
事实上,这个东西的严格的讲还有特别厉害的名字,中心极限定理, wiki上有一段有趣的历史。Tijms (2004, p.169) 写到:
中心极限定理有着有趣的历史。这个定理的第一版被法国数学家棣莫弗发现,他在1733年发表的卓越论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布。这个超越时代的成果险些被历史遗忘,所幸著名法国数学家拉普拉斯在1812年发表的巨著 Théorie Analytique des Probabilités中拯救了这个默默无名的理论。
拉普拉斯扩展了棣莫弗的理论,指出二项分布可用正态分布逼近。但同棣莫弗一样,拉普拉斯的发现在当时并未引起很大反响。直到十九世纪末中心极限定理的重要性才被世人所知。1901年,俄国数学家里雅普诺夫用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明。如今,中心极限定理被认为是(非正式地)概率论中的首席定理。
高斯对正态分布的导出准备
之前我们说到高斯对测量误差研究中发现了正态分布,并且这项研究也成为了当代统计学的中重要的思想--最大似然发现的源头。下面我们来仔细看看,他是如何导出这个完美的分布的。
首先我们要解释几个概念,第一个是似然(Likelihood)。什么是似然,简单通俗的来讲就是,一系列的概率密度函数的乘积,说白了也就是还是一种特别的复合的“概率”。比如对于正态分布,如果有独立同分布的观察值,则其的似然为:当然,我们也可以看到对于正态分布,这里还依赖于两个参数,就是。所以我们其实也可以将这个似然看成关于的二元函数。当然在给其中一个参数的情况下,我们也可以将其看成关于另一个的函数。另外,从数值上讲概率是在[0,1],所以n个连乘之后也还是在[0,1]。
- 关于对称,且对于一切成立.
- 具有连续的导函数。
由于我们的观察误差的分布密度函数为,那么此时的似然函数就是
实际上,这个似然函数刻画了这组观测值落在真实均值附近的可能性大小。当然此处高斯还给出了一个重要的假设:
观察值的平均值作为未知参数的估计值时使得似然最大。
事实上,下面的推导主要还是依赖于这个假设。回头看看这个假设,其实也是符合逻辑和直观感受的,这表明观测的均值作为一个理论均值可以让似然函数最大。高斯对正态分布的导出的具体过程
若使得似然函数似然最大,则根据数学分析(当然大多数人你们学的是微积分,或者是高等数学)的结论,它的必要条件是关于参数导函数在处为0。此时,我们记,根据复合函数的求导法则(链式法则),具体是针对对数函数的那个,我们可以得到,同时根据连续函数假设,我们可以对等式(1)进行简化,
其中第一个等号到第二个等号用的是对数函数的性质(积的对数函数等于对数函数的和),第二等式到第三个么是求导的性质(和的导数等于导数的和),第三到第四么就是g(x)的定义以及复合函数求导法则,之后就是带入啦。所以最后我们可以得到的是
.....................................(2)
若此时,我们简化考虑,令n = 2, 则方程(2)进一步简化可以得到
由于以及,的任意性,我们可以得到g(x)是个中心对称函数,即对一切实数x成立。
另外,当n=3时,方程(2)可以简化得到
由于以及,的任意性,我们可以得到对一切实数成立,
这也是个大名鼎鼎的方程,叫柯西函数方程,这类方程在有理数范围内,可以得到唯一的通解(当然根据连续性联系,结合有限覆盖原理可以得出在实数域内也有唯一的此种解,比较复杂,这里就不详细讨论了),。因此,很快我们可以得到一个微分方程,即
链接:https://zhuanlan.zhihu.com/p/24437232
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
对嘛,ln函数呀! 。然后再想一下,什么函数的导数会是右边形式呢?
嗯,好像二次函数的求导之后就是这样哦!所以嘛,最后这个方程结果是:
由于是密度函数,需要大于0小于1,因此我们需要令,否则这样的指数函数分分钟大于1了哈,不妨我们记,则
.............................................................................(3)
当然不要忘记了,概率密度函数的在可行范围内的积分需要为1哦,即,结合方程(3)可以解出。什么?这个积分不会算么?啊?我想想,这个还是去找个多元微积分教材看看吧,对了,还有个好办法,做题神器,高级计算器,maple,非常好用,下面有连接,输入公式,再复杂的微积分题也可以算出来(不对,其实不一定哈,不过至少你们课本上的题无论常义积分还是反常积分都是秒算哈,不过用多了你的数学基础估计就废了,考试也不用指望了),所以想要打基础好好学习把,不过想要快速解决问题,这个一定是上选!
最后系数算出来之后我们就得到了z著名的误差公式,当然也是正态分布的密度函数,看着是不是很眼熟,对,没错,我想你应该有印象,对,你应该记住了,就是这个完美的分布!
参考文献
李贤平, 概率论基础 (第三版). 高等教育出版社, 2010.
作者:蓦风星吟
链接:https://zhuanlan.zhihu.com/p/24437232
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。