zoukankan html css js c++ java

开始思考是不是要写一篇像样的英文文章投出去。

A Keyword Spotting system with POSTprocessing of Semantics by syllable_Based Blind Clustering

Luoxuefeng

Department of Computer Science and Engineering Shanghai Jiao Tong University

Shanghai,China ,200030

dayouluo@sjtu.edu.cn

2 Clustering Feature Abstraction and Clarification Principle:

2.1 Fundamental Principle

由于语音模板的长度不定性，模板匹配不能采取直接的Euclid距离等计算方案，现在比较流行的有DTW等算法。本文所基于的特征距离插值原理，可以通过平滑能量来统一帧间差异，进而以同一音节在多个帧长的情况下的特征空间距离作为SVM分类器的依据，进行了改进的聚类算法研究。

对于得到的语音模板，设R为标准模式，X为测试模式，两者均为V维特征矢量的时间序列。即：

R：R(t) = ( R1(t), R2 (t), …, Rv (t) )T； (0≤t≤Tr)

X：X(t) = ( X1(t), X2 (t), …, Xv (t) )T； (0≤t≤Tx)

DTW的基本概念是通过寻找一个时间伸缩函数tr(tx)，该函数将测试模式X的时间轴tx非线性地映射到标准模式R的时间轴tr上，并使X与R的相对距离为最小。由此可见，对同一字（词）的语音而言，在理想情况下，即除时间轴的变动因素之外，如果没有其它什么变动因素的话，则X与R的相对距离应为零。即：

(2.1)

另一方面，从数学的角度来看，X(tx) (0≤t_x≤T_x) 和R(t_r)(0≤t_r≤T_r)也可以看作是对应在P维特征空间中的两条轨迹。显然，当X(t_x)和R(t_r)满足式(3.9)时，这两条轨迹是完全重叠的。

设s_x = s_x(t_x)表示沿着X(t_x)的轨迹从始点到达t_x时的轨迹长，ds_x表示这条轨迹的微小线段，则有：

(2.2)

若dsx/dt＞0，则可求得式(3.10)的逆函数，即：

(2.3)

此时，若考虑沿轨迹提取新的特征点X’(s_x)的话，则可根据式(3.11)将X’(s_x)定义为：

(2.4)

同样，可定义R’(s_r)为：

(2.5)

根据式(2.2)、(2.3)、(2.5)，则有：

(2.6）

根据轨迹的不变性，s_x = s_r (= s)，所以，可将式(2.6)改写为：

(2.7)

t_r

t_x

T_r

T_x

t_r= t_r(t_x)

Warping function

X(t_x)

R(t_r)

图2-1. Time Warp示意图图2-2. 基于轨迹的时间规整化示意图

式(2.7)即表示，在理想的情况下，对同一字（词）音的两个特征矢量X(tx)和R(t_r)，按相同的轨迹长s沿其各自的轨迹所提取出的新的特征矢量X’(S)和R’(S)具有对时间轴伸缩的不变性，这也就是基于特征空间轨迹对语音模式进行时间轴规整的基本原理。

因此，如图2-7所示，为了获得不受时间轴伸缩影响的语音特征矢量，可将语音轨迹总长分成n-1等分，然后沿该轨迹重新取样，重新取样后的n个的特征点就成为时间规整化后的特征矢量。由于经时间规整后的特征矢量可采用线性匹配，故可大幅度地减少运算量。而且从这个原理可以看出，倘若我们以改变帧长的方式，在多个维度上插值原模板，由于特征矢量X’(S)和R’(S)具有对时间轴伸缩的不变性，我们可以刻划的就是多种语音拉伸条件下的语音模板，这可以代表语音的多维性质，以之作为模板分类的依据是合适的。

参考文献：

[1] Vapnik V. The nature of statiticial learning theory [M]. NewYork:Springer Verlag,1995

查看全文

相关阅读:
Django 路由层
 HTTP协议
 Python并发编程之协程
 Django配置KindEditor
Django Form
pymysql模块
 javascript获取URL参数代码(网络摘抄)
javascript 实现飘动的广告（网络收藏，转）
游标的使用
 javascript 一个很好用的日历控件（网络收藏，转）

原文地址：https://www.cnblogs.com/dayouluo/p/87030.html