Caffe的loss layer(转) - 走看看

zoukankan html css js c++ java

Caffe的loss layer(转)

英文可查：地址

1.SoftmaxWithLoss

对一对多的分类任务计算多项逻辑斯蒂损失，并通过softmax传递预测值，来获得各类的概率分布。该层可以分解为SoftmaxLayer+MultinomialLogisticLossLayer，但它的梯度计算在数值上更为稳健。在测试时，该层可用SoftmaxLayer替代。

前向传播

bottom： 1.（N×C×H×W）维的预测得分x，N是batch数，类别总数为K=CHW，目前看到的SoftmaxWithLossLayer的bottom一般是一个InnerProduct层，所以K是写在一起的。该层将这些得分通过softmax函数（多项logistic回归模型）映射为概率分布，n∈[0, 1, …, N-1]，k、k’∈[0, 1, …, K-1]；
2.（N×1×1×1）维的标签l，，表示这个bacth中各样本的正确标签。
top：（1×1×1×1）维，对softmax输出类别概率的交叉熵分类损失。

反向传播

top：（1×1×1×1）维，该blob的微分就是loss_weight λ，λ是该层输出的系数，整个网络的损失为，这样。
bottom： 1.（N×C×H×W）维的预测得分x，反向计算微分；
2.（N×1×1×1）维的标签，忽略。
另外可参考一篇很好的介绍文章：http://blog.csdn.net/u012162613/article/details/44239919

2.EuclideanLoss

对回归任务计算欧氏距离（L2）损失，可用于最小二乘回归任务。

前向传播

bottom： 1.（N×C×H×W）维的预测，
2.（N×C×H×W）维的真实结果，
top：（1×1×1×1）维的欧氏距离损失：

反向传播

top：（1×1×1×1）维，该blob的微分就是loss_weight λ，λ是该层输出的系数，整个网络的损失为，这样。
bottom： 1.（N×C×H×W）维的预测，反向计算微分；
2.（N×C×H×W）维的预测，反向计算微分。

3.HingeLoss

对一对多的分类任务计算铰链损失。

前向传播

bottom： 1.（N×C×H×W）维的预测t，blob值的范围是，表示对K=CHW中每个类的预测得分。在SVM中，是D维特征和超平面参数的内积，因此只有一个InnerProductLayer（num_output = D）提供预测到HingeLossLayer中的网络就相当于一个SVM；
2.（N×1×1×1）维的真实标签l，。
top：（1×1×1×1）维的铰链损失：，对应于正规化，默认是L1正规化，也可以用L2正规化，。

反向传播

top：（1×1×1×1）维，该blob的微分就是loss_weight λ，λ是该层输出的系数，整个网络的损失为，这样。
bottom： 1.（N×C×H×W）维的预测得分t，反向计算微分；
2.（N×1×1×1）维的标签，忽略。

4.SigmoidCrossEntropyLoss

计算交叉熵（逻辑斯蒂）损失，通常用于以概率形式预测目标。该层可以分解为SigmoidLayer+CrossEntropyLayer，但它的梯度计算在数值上更为稳健。在测试时，该层可用SigmoidLayer替代。

前向传播

bottom： 1.（N×C×H×W）维的预测得分，是用sigmoid函数的概率预测；
2.（N×C×H×W）维的真实结果，。
top：（1×1×1×1）维的交叉熵损失：。

反向传播

top：（1×1×1×1）维，该blob的微分就是loss_weight λ，λ是该层输出的系数，整个网络的损失为，这样。
bottom： 1.（N×C×H×W）维的预测得分x，反向计算微分；
2.（N×1×1×1）维的标签，忽略。

5.MultinomialLogisticLossLayer

对一对多的分类任务计算多项逻辑斯蒂损失，直接将预测的概率分布作为输入。当预测并不是概率分布时应该用SoftmaxWithLossLayer，因为它在计算多项逻辑斯蒂损失前通过SoftmaxLayer将预测映射为分布。

前向传播

bottom： 1.（N×C×H×W）维的预测得分，blob值的范围是[0, 1]，表示对K=CHW个类中每个类的预测概率。每个预测向量之和为1，；
2.（N×1×1×1）维的标签l，，表示这个bacth中各样本的正确标签。
top：（1×1×1×1）维的多项逻辑斯蒂损失。

反向传播

top：（1×1×1×1）维，该blob的微分就是loss_weight λ，λ是该层输出的系数，整个网络的损失为，这样。
bottom： 1.（N×C×H×W）维的预测得分，反向计算微分；
2.（N×1×1×1）维的标签，忽略。

6.InfogainLoss

是MultinomialLogisticLossLayer的泛化，利用“information gain”（infogain）矩阵指定所有标签对的“value“，如果infogain矩阵一致则与MultinomialLogisticLossLayer等价。

前向传播

bottom： 1.（N×C×H×W）维的预测得分，blob值的范围是[0, 1]，表示对K=CHW个类中每个类的预测概率。每个预测向量之和为1，；
2.（N×1×1×1）维的标签l，，表示这个bacth中各样本的正确标签；
3.（1×1×K×K）维的infogain矩阵H（相应的另一个为I），若H=I则该层等价于MultinomialLogisticLossLayer。
top：（1×1×1×1）维的infogain多项逻辑斯蒂损失，指的是H的第行。

反向传播

top：（1×1×1×1）维，该blob的微分就是loss_weight λ，λ是该层输出的系数，整个网络的损失为，这样。
bottom： 1.（N×C×H×W）维的预测得分，反向计算微分；
2.（N×1×1×1）维的标签，忽略；
3.（1×1×K×K）维的infogain矩阵，忽略。

7.ContrastiveLoss

计算对比损失，其中，可用于训练siamese网络。

前向传播

bottom： 1.（N×C×1×1）维的特征；
2.（N×C×1×1）维的特征；
3.（N×C×1×1）维的二元相似度。
top：（1×1×K×K）维的对比损失。

反向传播

top：（1×1×1×1）维，该blob的微分就是loss_weight λ，λ是该层输出的系数，整个网络的损失为，这样。
bottom： 1.（N×C×1×1）维的特征a；
2.（N×C×1×1）维的特征b。

查看全文

相关阅读:
可闭环、可沉淀、可持续的企业级数据赋能体系
 案例解读|迁云的灵魂3问，降多少本，增多少效，真平滑否？
Serverless 实战——使用 Rendertron 搭建 Headless Chrome 渲染解决方案
 从零开始入门 K8s | etcd 性能优化实践
 State Processor API：如何读取，写入和修改 Flink 应用程序的状态
 阿里云叔同：以容器为代表的云原生技术，已成为释放云价值的最短路径
 Flink SQL 如何实现数据流的 Join？
仅1年GitHub Star数翻倍，Flink 做了什么？
codeforces div2_603 F. Economic Difficulties(树dfs预处理+dp)
codeforces div2_604 E. Beautiful Mirrors（期望+费马小定理）

原文地址：https://www.cnblogs.com/cvtoEyes/p/8529093.html

Copyright © 2011-2022 走看看