每本书的推导略有不同,个人觉得推理更清楚的是这位博主的:http://blog.csdn.net/itplus/article/details/11022243
先推出第最后一层的残差,然后推出前一层的,条理很清楚。
针对BP社经网络中可能遇到的过拟合,有两种策略来缓解:一是“早停”,另一种是正则化(参考周志华《机器学习》P105)。
因为BP训练时使用的是梯度搜索,容易陷入局部最优,对此,可用三种方式:一是以多组不同参数值初始化多个神经网络;二是
使用“模拟退火”(这个以后会研究下),三是使用随机梯度下降。(参考周志华《机器学习》P107)
这位博主实现了BP算法,可以了解下:http://blog.csdn.net/on2way/article/details/40430487