zoukankan      html  css  js  c++  java
  • Large Margin Softmax Loss for Speaker Verification

    【INTERSPEECH 2019接收】

    链接:https://arxiv.org/pdf/1904.03479.pdf

    这篇文章在会议的speaker session中。本文主要讨论了说话人验证中的损失函数large margin softmax loss(结合了softmax和margins的losses)。

    本文从x-vector中提取speaker embedding。

    这篇文章在一个公式中统一了多种margin项:

    其中N表示训练样本数目,C表示训练集中的说话人数目,s是尺度因子。m1, m2, m3是可以分开使用的margins,则角函数定义为:

     

    并引入两种辅助损失:Ring Loss[1]来约束embedding模值;MHE[2]使weight尽可能在超球面中均匀分布,从而提升类间可分性。

    在VoCeleb数据集上运行实验。训练集包括VoxCeleb1 dev part and VoxCeleb2,验证集为VoxCeleb1 test part。训练过程中,特征采用30维的MFCCs(经过谱均值归一化)。采用基于能量的VAD方法。

    三种margins单独使用,分别得到losses为:angular softmax (ASoftmax), additive angular margin softmax (ArcSoftmax) and additive margin softmax loss (AMSoftmax)。见图1:

    实验表明采用AMSoftmax的性能最佳。见表1,该研究在Kaldi recipe for VoxCeleb的基础上得到了EER 2%的显著性能提升:

    深度学习为说话人技术带来了前所未有的机遇,而研究者们在不断拓展新算法的边界的同时,也在回顾传统方法仍然具备的价值。当然说话人技术目前也逐渐暴露出与人脸识别同样的易受攻击的问题。因此,ASVspoof这样的Challenge从2015年起就开始关注声纹反作弊问题。



    [1] Ring loss,一种简单的深层网络特征归一化方法,用于增强诸如Softmax之类的标准损失函数。论文(Ring loss: Convex Feature Normalization for Face Recognition)被CVPR 2018接收。

    [2] 最小化超球面能量准则(Minimum Hyperspherical Energy criterion),具体见论文Learning towards Minimum Hyperspherical Energy(NIPS 2018接收)。

  • 相关阅读:
    【转】selenium自动化测试环境搭建
    【cl】多表查询(内、外连接)
    【cl】子查询应用场景
    udev笔记
    C编译相关
    USB学习笔记-协议
    ARM汇编返回指令
    v4l2框架函数调用关系
    /etc/fstab和/etc/mtab
    各种存储介质的差异
  • 原文地址:https://www.cnblogs.com/ytxwzqin/p/12076039.html
Copyright © 2011-2022 走看看