检测音频信号中语音的存在
的voiceActivityDetector
系统对象™检测音频段中是否存在语音。你也可以用thevoiceActivityDetector
系统对象输出每个频率单元的噪声方差估计值。
检测言语的存在:
创建voiceActivityDetector
对象,并设置其属性。
使用参数调用对象,就像调用函数一样。
要了解更多关于System对象如何工作的信息,请参见什么是系统对象?.
VAD = voiceActivityDetector
创建一个System对象,VAD
,它通过每个输入通道独立地检测语音的存在。
VAD = voiceActivityDetector (
每个属性集名称,值
)的名字
到指定的价值
.未指定的属性具有默认值。
通过采用= voiceActivityDetector(“InputDomain”、“频率”)
创建一个System对象,VAD
,它接受频域输入。
要使用对象函数,请指定System对象作为第一个输入参数。例如,释放名为system的对象的系统资源obj
,请使用以下语法:
发行版(obj)
的voiceActivityDetector
实现中描述的算法[1].
如果InputDomain
被指定为“时间”
时,对输入信号加窗,然后根据窗口
,旁瓣衰减
,FFT长度
属性。如果InputDomain
为频率,输入为音频信号的加窗离散时间傅里叶变换(DTFT)。然后信号被转换到功率域。噪声方差估计根据[2].根据最小均方误差(MMSE)公式估计后验信噪比和先验信噪比[3].基于对数似然比检验和隐马尔可夫模型(HMM)的延迟方案确定当前帧包含语音的概率,根据[1].
[1] Sohn,Jongseo.,Nam-Soo Kim和Wonyong Sung.“基于统计模型的语音活动检测。”信号处理字母IEEE.1999年第6卷第1期。
[2]马丁,R。基于最优平滑和最小统计量的噪声功率谱密度估计。IEEE语音和音频处理汇刊.第9卷第5期,2001年,第504-512页。
以法莲,Y.和D.玛拉。用最小均方误差短时谱振幅估计器增强语音。声学、语音和信号处理IEEE交易.1984年第32卷第6期,1109-1121页。