人脸识别和检测中loss学习

zoukankan html css js c++ java

人脸识别和检测中loss学习
论文下载：http://openaccess.thecvf.com/content_cvpr_2017/papers/Liu_SphereFace_Deep_Hypersphere_CVPR_2017_paper.pdf

SphereFace: Deep Hypersphere Embedding for Face Recognition

softmax损失仅仅能够学到分辨性不够强的特征，除此之外，还有contrastive loss，center loss，triplet loss。

但是它们都在一定程度上存在弊端：
- center loss仅能使得类内紧凑，无法使得类间可分。
- contrastive loss和triplet loss需要pair/triplet 挖掘过程，增加时间的损耗。
- 除此之外，还有一个更关键之处：以上的损失函数都使用了欧式距离，而softmax损失学习到的特征有角度上的分布特性。
证明了softmax损失学习到的特征有角度上的分布特性，因此在这种意义上，欧式距离与softmax损失是不兼容的，所以作者认为结合softmax损失和欧式距离效果可能不是最佳的。

一步步修改损失：

1）modified softmax loss

传统softmax loss损失函数为：

为了简化计算，把偏置b设置为0，,然后权重和输入的内积用下面式子表示：

因此为了将损失函数变换成仅受角度影响的公式，需要经过下面的几个变换：

1》决策边界

首先softmax loss的决策边界（decision boundary）为：

(W₁ −W₂)x + b₁ − b₂ =0

其中W₁、W₂表示的是对应的权重矩阵中1、2对应的类的那一行；b₁、b₂同理；x即整个input输入的特征向量

这个公式是因为其决策边界是线性的。

证明：

假设决策边界是线性的，那么会有：

1.首先在决策边界上softmax对任意两类的输出概率是相等的。即对如上图的任一边界上的一点，softmax输出的概率向量上，该点被判断为边界两侧的类的对应分量是相等的

这样，通过计算可知：

z_i = W_i*x + b_i = z_j = W_j*x + b_j （这里W_i和W_j是权重矩阵第i,j行，i、j即边界两侧的两个类）

2.边界是线性的等价于边界上的任意两个点X₁、X₂，他们的线形组合X₀=t*X₁+s*X₂ 仍然在决策边界上，这里t+s=1

根据上面这两个条件证明：

从softmax的决策边界上任取两点X₁,X₂

由上面的叙述1可知，W₁*x+b₁=W₂*x+b₂，即（W₁-W₂)*x=b₂-b₁

再任取一点X₀= t*X₁+ s*X₂，s+t = 1

则softmax对X₀的计算得z₁= W₁*X₀+ b₁, z₂= W₂*X₀+ b₂, 下面证明z₁=z₂：

z₁- z₂= W₁*X₀+ b₁- (W₂*X₀+ b₂)                              ，（代入X₀= t*X₁+ s*X₂）

          = t*(W₁- W₂)*X₁+ s*(W₁- W₂)*X₂ + (b₁ - b₂)     ，（代入（W₁-W₂)*x=b₂-b₁）

          = t*(b₂-b₁) + s*(b₂-b₁) + (b1-b2)

          = 0

所以，z1=z2，即证明X₀也在决策边界上

2》约束条件

然后使用L2正则化处理W_j使得||W_j||=1，L2正则化就是将W_j向量中的每个值都分别除以W_j的模，从而得到新的W_j，新的W_j的模就是1：

说明该方法只归一化了权重，而没有归一化特征向量

这样根据式子：

可以将softmax loss损失函数变换为只与角度相关的公式：

||x|| (cos(θ_i) - cos(θ_j)) = 0

这里的θ_i是W_i和x之间的角度

通过这样的损失函数学习，可以使得学习到的特征具有更明显的角分布，因为决策边界只与角有关

这样修改后的损失函数modified softmax loss为：

x_i表示第i个训练样本，y_i为第i个训练样本的类别，W_j表示W的第j列，W_yi表示W的第y_i列，表示列是因为进行了转置

2）A-softmax loss（angular softmax）

1》添加定量控制参数m

添加一个定量控制参数m（m>=1）到决策边界上，这样类1和类2的决策边界为：

    ||x|| (cos(mθ₁) - cos(θ₂)) = 0，对于类1来说

和 ||x|| (cos(θ₁) - cos(mθ₂)) = 0，对于类2来说

m参数用来定量控制角度边际

在modified softmax loss，对于一个来自类别1 的可学习特征向量x，θ_i是该x和W_i之间的角度，可知如果我们希望网络能够分类得到该x属于类别1，那么就需要cos(θ₁) > cos(θ₂), 因为θ_i范围为[0,Π],在这个范围内cos()函数是递减的，所以要求(θ₁) < (θ₂)

所以如果增加一个参数m，变为cos(mθ₁) > cos(θ₂) ， m >= 2 ,那么就希望训练得到的θ₁更小，该类1的决策边界为cos(mθ₁) = cos(θ₂)；同理cos(θ₁) < cos(mθ₂),也是希望训练得到的θ₂更小，该类2的决策边界为cos(θ₁) = cos(mθ₂)。这样两个类的分布中间就会隔着一个比较大的角度边际，因为各自的角度都要乘以m才能到达边界

假设所有训练样本都正确分类了，那么决策边界将生成一个角度边际为( $\frac{m - 1}{m + 1} θ$ 对于类别1，cos(mθ₁) = cos(θ₂)， $\frac{m - 1}{m + 1} θ$ θ₁ + θ₂

所以cos(mθ₁) = cos( $\frac{m - 1}{m + 1} θ$ - θ₁)

所以 mθ₁ = $\frac{m - 1}{m + 1} θ$

所以 θ₁ = (1/m+1) $\frac{m - 1}{m + 1} θ$

$\frac{m - 1}{m + 1} θ$

所以cos(mθ₂) = cos( $\frac{m - 1}{m + 1} θ$

所以 mθ₂ = $\frac{m - 1}{m + 1} θ$

$\frac{m - 1}{m + 1} θ$

$\frac{m - 1}{m + 1} θ$

这样对于类型1，需要训练 $\frac{m - 1}{m + 1} θ$

现在的损失函数为：

2》定义新角度函数

为了摆脱这个角度的限制，通过概括一个单调递减的角度函数ψ(θyi,i)来扩展cos(θyi,i)的定义范围，在[0,π/m]的范围中两个函数是等价的，这样最终的损失为：

其中将 ψ(θyi,i)函数定义为：

m >= 1是用来控制角度边际大小的。当m=1时，该损失函数就等价与了modified softmax loss

可见

根据上面的式子画图：

可见该函数是单调递减的

然而， SphereFace 的实现中整合了 Softmax 监督以保证训练的收敛，并且权重由动态超参数 λ
λ 控制。加入额外的 Softmax 损失，所以ψ(θyi,i)实际上是：

其中 λ是一个额外的超参数，以利于 SphereFace 的训练。λ在开始时设置为1,000，并且减少到5以使每个类的角度空间更紧凑。这个额外的动态超参数 λ使得 SphereFace 的训练相对棘手。

3》该A-softmax loss的属性

属性1 ：A-Softmax Loss定义了一个大角度间隔的学习方法，m越大这个间隔的角度 $\frac{m - 1}{m + 1} θ$

定义1：定义 $m_{m i n}$

$m_{m i n}$

$m_{m i n}$
查看全文

相关阅读:
java内部类
 navicat使用教程-PJ
提交代码时的注意事项
 多线程技术
 Apache POI使用详解
 网站链接收藏夹
 MySQL优化
 Oracle创建用户、角色、授权、建表
 oracle 安装提示未找到文件安装
 Json对象与Json字符串的转化、JSON字符串与Java对象的转换

原文地址：https://www.cnblogs.com/wanghui-garcia/p/12362375.html