过拟合的三种解决方法:
1. 增加数据集
2. L1,L2正则化。
a) L1正则化是使权值矩阵变成稀疏的。减少网络复杂度。
b) L2正则化是使不断较少权值的大小,从而减少网络复杂度。(权值衰减)
3. Dropout
训练时候每次迭代前都随机删除一半的隐含层节点,相当于每次训练都只训练了一半的网络(只更新了一半的权值和阈值)。
细节参考博文:http://blog.csdn.net/u012162613/article/details/44261657