zoukankan      html  css  js  c++  java
  • 开始思考是不是要写一篇像样的英文文章投出去。

    A Keyword Spotting system with POSTprocessing of Semantics by syllable_Based Blind Clustering

     

    Luoxuefeng

     

     Department of  Computer Science and Engineering Shanghai Jiao Tong University

    Shanghai,China ,200030

    dayouluo@sjtu.edu.cn

     

    2 Clustering Feature Abstraction and Clarification Principle:

    2.1 Fundamental Principle

    由于语音模板的长度不定性,模板匹配不能采取直接的Euclid距离等计算方案,现在比较流行的有DTW等算法。本文所基于的特征距离插值原理,可以通过平滑能量来统一帧间差异,进而以同一音节在多个帧长的情况下的特征空间距离作为SVM分类器的依据,进行了改进的聚类算法研究。

    对于得到的语音模板,设R为标准模式,X为测试模式,两者均为V维特征矢量的时间序列。即:

    RR(t) = ( R1(t), R2 (t), …, Rv (t) )T (0≤t≤Tr)

    XX(t) = ( X1(t), X2 (t), …, Xv (t) )T (0≤t≤Tx)

    DTW的基本概念是通过寻找一个时间伸缩函数tr(tx),该函数将测试模式X的时间轴tx非线性地映射到标准模式R的时间轴tr上,并使XR的相对距离为最小。由此可见,对同一字(词)的语音而言,在理想情况下,即除时间轴的变动因素之外,如果没有其它什么变动因素的话,则XR的相对距离应为零。即:

    <!--[if !vml]--><!--[endif]-->                                             (2.1)

    另一方面,从数学的角度来看X(tx) (0≤tx≤Tx) R(tr)(0≤tr≤Tr)也可以看作是对应在P维特征空间中的两条轨迹。显然,当X(tx)R(tr)满足式(3.9),这两条轨迹是完全重叠的。                                    

    sx = sx(tx)表示沿着X(tx)的轨迹从始点到达tx时的轨迹长,dsx表示这条轨迹的微小线段,则有:

          <!--[if !vml]--><!--[endif]-->                                                                      (2.2)

    dsx/dt0,则可求得式(3.10)的逆函数,即:

    <!--[if !vml]--><!--[endif]-->                                                        (2.3)

    此时,若考虑沿轨迹提取新的特征点X’(sx)的话,则可根据式(3.11)X’(sx)定义为

    <!--[if !vml]--><!--[endif]-->                                           (2.4)

    同样,可定R’(sr)为:

    <!--[if !vml]--><!--[endif]-->                                              (2.5)

    根据式(2.2)(2.3)(2.5),则有:

    <!--[if !vml]--><!--[endif]-->                                                   (2.6

    根据轨迹的不变性,sx = sr (= s),所以,可将式(2.6)改写为:

    <!--[if !vml]--><!--[endif]-->                        (2.7)

     

    tr

    tx

    Tr

    Tx

           tr= tr(tx)

    Warping function

    X(tx)

    R(tr)

    0

    <!--[if !vml]--> <!--[endif]--> 

     

     

     

     

     

     


    2-1. Time Warp示意图             2-2. 基于轨迹的时间规整化示意图

    (2.7)即表示,在理想的情况下,对同一字(词)音的两个特征矢X(tx)R(tr),按相同的轨迹长s沿其各自的轨迹所提取出的新的特征矢量X’(S)R’(S)具有对时间轴伸缩的不变性,这也就是基于特征空间轨迹对语音模式进行时间轴规整的基本原理。

    因此,如图2-7所示,为了获得不受时间轴伸缩影响的语音特征矢量,可将语音轨迹总长分成n-1等分,然后沿该轨迹重新取样,重新取样后的n个的特征点就成为时间规整化后的特征矢量。由于经时间规整后的特征矢量可采用线性匹配,故可大幅度地减少运算量。而且从这个原理可以看出,倘若我们以改变帧长的方式,在多个维度上插值原模板,由于特征矢量X’(S)R’(S)具有对时间轴伸缩的不变性,我们可以刻划的就是多种语音拉伸条件下的语音模板,这可以代表语音的多维性质,以之作为模板分类的依据是合适的。

     


    参考文献:

    [1] Vapnik V. The nature of statiticial learning theory [M]. NewYork:Springer Verlag,1995

  • 相关阅读:
    loj 1251(2-sat + 输出一组可行解)
    hdu 4751(dfs染色)
    hdu 2545(并查集求节点到根节点的距离)
    uva 10972(边双连通分量)
    uva 10246(最短路变形)
    uva 11380(最大流+拆点)
    hdu 4640(状压dp)
    hdu 1430+hdu 3567(预处理)
    python基础知识回顾[1]
    基于websocket搭建简易群聊
  • 原文地址:https://www.cnblogs.com/dayouluo/p/87030.html
Copyright © 2011-2022 走看看