从MAP角度理解神经网络训练过程中的正则化

zoukankan html css js c++ java

从MAP角度理解神经网络训练过程中的正则化

在前面的文章中,已经介绍了从有约束条件下的凸优化角度思考神经网络训练过程中的L2正则化,本次我们从最大后验概率点估计(MAP,maximum a posteriori point estimate)的角度来理解神经网络中十分重要的weight decay正则化方法.

前面的文章中讲到了梯度下降法可以从最大似然概率估计(ML)的角度来理解,最大似然是一种典型的频率统计方法,还有一种非常不同的贝叶斯统计方法(具体的区别请参考花书).由于贝叶斯统计方法很多时候是复杂不易于处理的,因此我们更想要一种类似与ML的点估计方法.而MAP正是一种点估计的近似贝叶斯估计方法.MAP选择使得后验概率最大的点作为最优估计,定义如下:$$ oldsymbol{ heta}_{MAP} = underset{oldsymbol{ heta}}{argmax}p(oldsymbol{ heta}|x) = underset{oldsymbol{ heta}}{argmax}log(x|oldsymbol{ heta})+logp(oldsymbol{ heta})$$
上式右边(log(x|oldsymbol{ heta}))项正是对数最大似然部分,而(logp(oldsymbol{ heta}))项是先验概率部分.

相较于最大似然估计,MAP多了先验概率部分,而这部分是无法从训练样本中得到的,利用先验概率部分可以起到减小泛化误差的作用.

例如,将先验概率设为权重(oldsymbol{w})符合均值为0,方差为(frac{1}{lambda}I^{2})的高斯分布,则上式中的先验概率项,就可化为形如(lambda w^{T}w)的L2正则化项.
MAP方法提供了一种设计复杂的可解释的正则化方法的直接途径.

查看全文

相关阅读:
一个神奇的类库，可以执行字符串表达式
 Common lang一些边界方法总结（好记性不如烂笔头，需要慢慢积累）.一定要利用好现有的轮子，例如Apache common与Google Guava
借助强大的IDEA开发ide高效实现equals,hashcode以及toString方法
 数字签名是什么？
字符串组合
 空格替换
 字符串替换（replace）
为什么要区分稳定和非稳定排序
 算法稳定性
 华为2018校招技术岗笔试

原文地址：https://www.cnblogs.com/hello-ai/p/11100091.html