比如一个softmax向量y_soft为[0.8,0.2] 但最后要使用它的单热形式y_hard[1,0]
如果反向传播是对y_soft进行,那么y_soft可以进行如下处理后传给下一步:
y=(y_hard-y_soft).detach()+y.soft()
y和y_hard值一样,但是求导是对y_soft做的