我们观测世界,得到了一些数据,我们要从这些数据里面去找出规律来认识世界,一般来说,在概率上我们有一个一般性的操作步骤
1. 观测样本的存在
2. 每个样本之间是独立的
3. 所有样本符合一个概率模型
我们最终想要得到的是一个概率密度的模型,有了概率密度模型以后,我们就可以统计预测等非常有用的地方,因此,首要任务是找出一些概率分布的概率密度模型。
我们来分析一下上面的三个步骤,第一第二都很好解决,关于第三点,我们可以有不同的处理方式
如果我们已经对观测的对象有了一些认识,对观测的现象属于那种类型的概率密度分布已经了解了,只是需要确定其中的参数而已,这种情况就是属于参数估计问题。
如果我们研究观测的对象,也很难说这些观测的数据符合什么模型,参数估计的方法就失效了,我们只有用非参数估计的办法去估计真实数据符合的概率密度模型了。
因此,本文主要讨论 参数估计和非参数估计问题
1. 参数估计
对我们已经知道观测数据符合某些模型的情况下,我们可以利用参数估计的方法来确定这些参数值,然后得出概率密度模型。这个过程中用到了一个条件,就是概率分布符合某些模型这个事实。在这个事实上进行加工。
一般来说,参数估计中,最大似然方法是最重要和最常用的,我们重点介绍参数估计方法
我们在《无基础理解贝叶斯》中已经讲过似然性,那么我们就可以先写出似然函数。
假设有N个观测数据,并且概率模型是一个一维的高斯模型,用f(x)表示高斯模型,参数待定,因此我们可以写出似然函数
L(x1,x2,...xn) = f(x1,x2,...xn) = f(x1)*f(x2)*......*f(xn),第二个等式用到了样本之间是独立性这个假设(上面提到的一般步骤的第二条)
然后把对似然函数取对数
logL(x1,x2,...xn) = log(f(x1)*f(x2)*......*f(xn)) = log(f(x1)) + log(f(x2))+......+log(f(xn))
我们既然提到了极大释然方法,那就是要求出使得logL(x1,x2,...xn) 取最大值得参数。
因此对 logL(x1,x2,...xn) 求导等于0的参数就是符合要求的参数。
注意,如果似然函数求导有困难,通常我们会用迭代方法去求得这些参数,后面我们讲EM算法就是属于此类型
2. 贝叶斯方法
在我们谈到参数估计方法中,我们假定了参数是固定值,但是贝叶斯观点会人文,模型的参数值不是固定的,也是属于某种分布的状态。
因此我们做参数估计的时候其实是不准确的,因此贝叶斯方法会把参数的也作为一个概率考虑进来,然后再去观测。
我个人理解,这种方式也只能算是参数估计里面的一个变种而已
后验概率 ∝ 似然性 * 先验概率
先验概率,我们可以看成是待估计模型的参数的概率分布,后验模型是在我们观测到新的数据以后,结合先验概率再得出的修正的参数的分布
注意,如果似然函数的形式和先验概率的乘积有同样的分布形式的话,得到的后验分布也会有同样的分布模型
因此,人为的规定,如果先验概率与似然函数的乘积在归一化以后,与先验分布的形式上是一致的话,似然函数与先验概率就是共轭的,注意共轭不是指先验与后验的共轭
至于满足这个条件的共轭分布有很多种,二项分布与贝塔分布,多项式分布于狄利克雷分布等
后面有时间再更新一些贝叶斯方法相关的内容
3. 非参数估计
看过了参数估计后,我们知道,如果有模型的知识可以利用的话,问题就会变得很简单,但是如果没有关于模型的知识,我们怎么办?
回过头来看我们的目标,求出观测数据的概率密度模型。因此我们就会从概率密度这个定义开始分析,看有没有可以入手的地方。
概率密度,直观的理解就是在某一个区间内,事件发生的次数的多少的问题,比如N(0,1)高斯分布,就是取值在0的很小的区间的概率很高,至少比其他等宽的小区间要高。
我们把所有可能取值的范围分成间隔相等的区间,然后看每个区间内有多少个数据?这样我们就定义出了直方图,因此直方图就是概率密度估计的最原始的模型。
直方图我们用的是矩形来表示纵轴,当样本在某个小区间被观测到,纵轴就加上一个小矩形。
这样用矩形代表的模型非常粗糙,因此可以用其他的形状来表示,进一步就是核密度估计方法,这个后面会有一个翻译文章来具体讲解
基本上,参数估计和非参数估计是概率模型里面用的非常多的基本概念,希望自己在后面忘记的时候还能想起来曾经写过的东西