Softmax就是依概率预测分类标签
训练集 标签
此时,cost function为
若标签设定
令
is the indicator function, so that 1{a true statement} = 1, and 1{a false statement} = 0
此时,cost function为
对于softmax来说,设定indicator function为
梯度如下
迭代如下
cost function上加入weight decay term得
此时梯度为