1、最大似然估计数学定义:
假设总体分布为f(x,θ),X1,X2...Xn为总体采样得到的样本。其中X1,X2...Xn独立同分布,可求得样本的联合概率密度函数为:
其中θ是需要求得的未知量,xi是样本值。
此时,L(x,θ)是关于θ的函数,称之为似然函数。
求参数θ值使得似然函数值取最大值,这种方法称之为最大似然估计。》》MLE
2、如何求解最大似然估计
其中x是已知的,θ是需要求的变量值。如果最大似然函数可导,可以通过对θ求导的方式,取得L(x,θ)的极值。
在实际中为了方便计算,往往先对L(x,θ)取对数:
加入求导:
3、使用MLE推导逻辑回归
逻辑回归中使用sigmoid函数,将输出值确定在范围0到1之间。此时输出的值相当于概率中某一个样本的值。即上述所讲的X1,X2...Xn。
而sigmoid函数中所需要求的w,即为似然函数中的θ。
有如下公式:
1、sigmoid函数
此时没有截距b,加入后在归一化时会被约掉,所以干脆不使用b。
2、sigmoid求导
3、对数似然函数
概率分布为:
将上面两式子写作联合:
联合概率密度函数为:
构建似然函数:
4、求解MLE
5、与UFLDL中的RL结合,改变某些表述:
概率分布:
似然函数:
求解MLE:
矩阵形式:
得到似然函数对θ的导数后,使用梯度下降法来更新θ,使得最终的结果接近于label。
4、使用似然估计推导softma
(此处使用UFLDL中的公式,敲公式好麻烦。。。)
(1)概率
(2)似然函数
(3)对似然函数关于θq求导
似然函数展开:
求导:
最后,同样使用梯度下降法来求最优θ。
LR可以使用最大熵来推导,在后续给出。
参考:
有机会,会做一个UFLDL的总结博客。