语音分离相关介绍
一.语音分离的起源和定义
起源:来自“鸡尾酒会效应”,人类可以将注意力放在特定的所感兴趣的消息上,可以摒弃环境中的噪声等的干扰。
定义:指通过运用一定的方法从接受到的混合语音信号中计算出个体信号的信号处理技术,它大致可以分成两个方向:第一,在语音信号中进行多个声源之间的分离;第二,在语音信号中进行单一声源与噪声等干扰的分离。
二.语音分离方法
1 基于独立成分分析方法(ICA,Independent Component Analysis)
其是目前应用最广泛的单麦克语音分离的方法,通过寻找多维数组中的统计独立和非高斯成分来实现对语音信号的分离。在国外的发展速度较快。
2 基于计算听觉场景分析方法(CASA,Computational Auditory Scene Analysis)
该方法的基础理论是独占分配准则和闭包连续准则,其中,独占分配准则指的是,在某一时刻,人类听觉方法的诸多感官要素只能对唯一的声音流起作用;闭包连续准则指的是,对于短时进入听觉感官要素的非连续语音信息,人脑可以合理组织,从而恢复出完整的语音信息。该方法也是国外发展时间较长。
基于CASA的语音分离方法凭借着无需提前假定和限制声源信号的统计特性、混合方式和信道个数的种种优势,正在迅速成为语音信号处理领域的热门方法。
3 基于空间滤波方法(SF,Spatial Filtering)
该方法指的是通过麦克风阵列对声源信号进行采集,再利用波束形成和滤波算法对混合信号进行处理的语音分离方法。
与单麦克的独立成分分析相比,麦克风阵列有更好的拓扑结构,所以阵列有更好的空间分辨率,可以更好的获取目标的时域、频域和空域等信息。常用的阵列语音分离方法有:
•延迟-求和(DS,Delay-Sum)
该方法首先计算每个声源到麦克风阵列的每个阵元的距离和到达参考点(也是其中一个阵元)的距离差,然后根据差值计算相应的时延,并对各路语音信号进行延迟补偿。最后利用各声源的固定权值对同步后的各路信号进行乘积累加,便可将各声源的信号分离开来。但由于是固定权重,所以不能对噪声起到最大限度的抑制作用。
•麦克风阵列自适应语音分离方法
该方法定期根据接收信号的协方差矩阵进行波束形成算法的权矢量更新,这样波束主瓣就能进行实时调整,而且方向始终对准声源信号,同时“零点”指向干扰噪声。该方法是目前应用最为广泛的语音分离方法。
•后置维纳滤波麦克风阵列语音分离方法
该方法就是在每个麦克风阵列的阵元后加一个设置的有限冲激响应滤波器,这个滤波器组的复加权系数由各路混合信号的延迟补偿和幅度加权值共同决定,所以这种方法具有自适应性,即它的复加权系数有自适应性,最后,将所有的加权复系数进行累加便可以得到输出信号,这种方法计算量最大,但是是时域直接处理的办法,即输出信号各段相位一致。