损失函数最小,也就是求极值点,也就是损失函数导数为0。上面也说了,如果d0+λ和d0-λ为异号的时候刚好为极值点,损失函数导数为0(w为0是条件)。而对于L2正则化,在w=0时并不一定是极值点而是d0。这就说明了L1正则化更容易稀疏化。