1.采用不同的初始值多个不同神经网络,按标注方法训练后,取误差最小的参数,才用不同的初始值以为这从不同的路径进行梯度下降,从而不会陷入特定的局部极小,再在这些值中选择,会选取到更接近全局极小的参数。
2.采用模拟退火,每一步以一定概率接受比当前更差的结果,从而有可能跳出局部极小,但是也有可能跳出全局极小。
3.随机梯度下降,与标准梯度下降算法不同,在计算梯度的时候会引入随机因素,因此,即使陷入局部极小值,也有可能跳出这个极小值继续搜索。但是仍然有可能不能达到全局最优解。