(源自:http://isip.buaa.edu.cn/lichen/?p=376)
beta分布用于对二值随机变量建模,比如抛硬币实验。但如果随机变量可以取多个互斥的值呢?比如可能有种选择。对于某个可以取
种互斥状态的随机变量我们可以用一个
维向量
来表示,其中一个元素
取1,剩下的位置取0。例如,如果我们有一个变量可以有
种状态,一个观察值恰好对应
,那么
可以表示成
这种向量满足。如果我们记
的概率为参数
,那么
的分布就是:a

其中的,而参数
满足
且
,因为它们代表概率。(2.26)的分布可以看成伯努利分布的一个多值泛化。可以看到这个分布式满足概率的归一化的:
同时,
![mathbb{E}[mathbf{x} lvert boldsymbol{mu}]=sum_mathbf{x}p(mathbf{x} lvert boldsymbol{mu})mathbf{x}=(mu_1,cdots,mu_K)^T=boldsymbol{mu}qquad(2.28)](http://isip.buaa.edu.cn/lichen/wp-content/cache/tex_28729f5f9ded08e8d47608d57d019b00.png)
考虑一个包含个独立观察值
的数据集
相应的似然函数:

可以看出似然函数和数量有关:

实际上是表示观察数据中为1的观察值的个数。这在概率论中称为充分统计量。
为了找出boldsymbol{mu}的最大似然估计值,我们需要对求极大值,并满足所有mu_k之和为1这个约束。引入拉朗格日乘子lambda,并极大化:

对(2.31)式以为自变量求导并令其导数为0,可得:
把(2.32)带入约束得到
,这样我们得到最大似然的解:

这个实际上式N个观察值中那些的实例所占百分比。
我们考虑给出和N个数据观察值时,
的联合概率分布。从(2.29)我们得到:

这就是多项式分布,归一化系数是把个对象划分成
组大小分别为
的可能划分总数。即:

注意到变量m_k需要满足:
