@
PyTorch没有L-1正则化,所以用下面的方法自己实现
一般用L-2正则化 weight_decay 表示(lambda)
moment参数设置上式中的(eta),表式上一时刻梯度所占的比例0~1之间
Dropout在train时使用,在test时要手动关闭