声音活动检测器

检测音频信号中的语音存在

展开页面中的所有内容

库:
音频工具箱/测量

描述

的声音活动检测器块检测音频信号中存在的语音。也可以使用声音活动检测器块输出估计的噪声方差每频率箱。

港口

输入

全部展开

`x`- - - - - -输入信号
矩阵| 1-D向量

矩阵输入 - 输入的每列被视为独立信道。
1-D向量输入 - 输入被视为单个通道。

除非指定其他输入端口，否则此端口是未命名的。

数据类型:单|双

`SilenceToSpeech`-阈值(dB)
在[0,1]范围内的标量

依赖关系

要启用此端口，请选择指定从输入端口静默到语音的概率为了从沉默帧转换到语音框架的概率参数。

数据类型:单|双

`语音特征`-阈值(dB)
在[0,1]范围内的标量

依赖关系

要启用此端口，请选择从输入端口指定语音到沉默的概率为了从语音帧过渡到沉默帧的概率参数。

数据类型:单|双

输出

全部展开

`P`- 演讲的概率存在
标量|行矢量

块输出一个与输入信号具有相同列数的标量或行向量。

此端口未命名，直到您选择输出噪声方差参数。

数据类型:单|双

`N`- 估计每个频率箱的噪声方差
列向量|矩阵

该块输出与输入信号具有相同列数的列向量或矩阵。

依赖关系

若要启用此端口，请选择输出噪声方差参数。

数据类型:单|双

参数

全部展开

如果参数被列为可调参数，那么您可以在模拟过程中更改其值。

`输入域`—输入域
`时间`(默认)|`频率`

`窗口`—FFT前加窗功能
`损害`(默认)|`Chebyshev.`|`扁头`|`汉明`|`凯撒`|`矩形`

窗口功能使用以下功能的算法设计：

损害- - -损害
Chebyshev.- - -chebwin
扁头- - -flattopwin
汉明- - -汉字
凯撒- - -凯泽

可调:不

依赖关系

要启用该参数，请设置输入域来时间。

`窗口的侧瓣衰减（DB）`- 窗口窗口衰减（DB）
`60`(默认)|积极的有限标量

依赖关系

要启用该参数，请设置输入域来时间和窗口来Chebyshev.或者凯撒。

数据类型:单|双

`从输入维度继承FFT长度`—“FFT长度”设置为输入采样数
On(默认)| off

可调:不

依赖关系

要启用该参数，请设置输入域来时间。

`FFT长度`- 频域中的箱数
`1024`(默认)|正整数

可调:不

依赖关系

要启用该参数，请设置输入域来时间并清楚地清除从输入维度继承FFT长度参数。

数据类型:单|双

`从沉默帧转换到语音框架的概率`-有可能语音框架之后是沉默框架
`0.2`(默认)范围为[0,1]的|标量

指定从沉默帧转换到语音框架的概率从输入端口中选择指定从输入端口静默到语音的概率。

可调:是的

数据类型:单|双

`从语音帧过渡到沉默帧的概率`- 沉默框架遵循语音帧的概率
`0.1`(默认)范围为[0,1]的|标量

指定从语音帧过渡到沉默帧的概率从输入端口中选择从输入端口指定语音到沉默的概率。

可调:是的

数据类型:单|双

`输出噪声方差`-输出估计的噪声方差每频率bin
`离开`(默认)|`上`

当您选择这个参数，一个额外的输出端口，N，被添加到块中。

`模拟使用`-指定要运行的模拟类型
`代码生成`(默认)|`解释执行`

代码生成- 使用生成的C代码模拟模型。您第一次运行模拟，Simulink金宝app^®为代码块生成C代码。只要模型不发生改变，C代码将用于后续的模拟。此选项需要额外的启动时间，但后续模拟的速度与之相当解释执行。
解释执行- 使用MATLAB模拟模型^®翻译。此选项减少了启动时间，但模拟速度比代码生成。在此模式下，您可以调试块的源代码。

可调:不

模型的例子

检测言语的存在

该模型使用语音活动检测器块可视化音频信号中语音存在的概率。

使用VAD的栅极音频信号

此模型使用 - else块信号路由以替换与零的任何语音的区域。

频域语音活动检测

该模型使用频域音频信号检测语音活动。

可视化噪声功率

该模型绘制了声音活动检测器估计的噪声功率。

块特征

数据类型	`双`\|`单`
直接喂养	`不`
多维信号	`不`
适应信号	`不`
讨论二阶导数过零检测	`不`

算法

的声音活动检测器实现所描述的算法[1]。

如果输入域被指定为时间，将输入信号加窗，然后根据变换变换到频域窗口,窗口的侧瓣衰减（DB），和FFT长度参数。如果输入域被指定为频率，假设输入是一个音频信号的加窗离散时间傅里叶变换(DTFT)。然后信号被转换到功率域。根据，估计噪声方差[2]。后验信噪比和先验信噪比根据中所述的最小均方误差(MMSE)公式进行估计[3]。采用基于隐马尔可夫模型(HMM)的悬架方案进行对数似然比检验[1]。

参考

孙[1],Jongseo。,Nam Soo Kim, and Wonyong Sung. "A Statistical Model-Based Voice Activity Detection."信号处理字母IEEE。1999年第6卷第1期。

[2]马丁,R。基于最优平滑和最小统计量的噪声功率谱密度估计IEEE语音和音频处理汇刊。Vol. 9, No. 5, 2001, pp. 504-512。

以法莲，Y.，和D.玛拉。使用最小均方误差短时谱振幅估计器的语音增强。声学，语音和信号处理的IEEE交易。第32卷，第6期，1984年，第1109-1121页。

扩展功能

C / C ++代码生成
使用Simulink®Coder™生成C和c++代码。金宝app

另请参阅

voiceActivityDetector

介绍了R2018a

音频工具箱文档

金宝app

试试MATLAB、Sim金宝appulink和其他产品下载188bet金宝搏

得到审判现在

声音活动检测器

描述

港口

输入

x- - - - - -输入信号矩阵| 1-D向量

SilenceToSpeech-阈值(dB)在[0,1]范围内的标量

依赖关系

语音特征-阈值(dB)在[0,1]范围内的标量

依赖关系

输出

P- 演讲的概率存在标量|行矢量

N- 估计每个频率箱的噪声方差列向量|矩阵

依赖关系

参数

输入域—输入域时间(默认)|频率

窗口—FFT前加窗功能损害(默认)|Chebyshev.|扁头|汉明|凯撒|矩形

依赖关系

窗口的侧瓣衰减（DB）- 窗口窗口衰减（DB）60(默认)|积极的有限标量

依赖关系

从输入维度继承FFT长度—“FFT长度”设置为输入采样数On(默认)| off

依赖关系

FFT长度- 频域中的箱数1024(默认)|正整数

依赖关系

从沉默帧转换到语音框架的概率-有可能语音框架之后是沉默框架0.2(默认)范围为[0,1]的|标量

从语音帧过渡到沉默帧的概率- 沉默框架遵循语音帧的概率0.1(默认)范围为[0,1]的|标量

输出噪声方差-输出估计的噪声方差每频率bin离开(默认)|上

模拟使用-指定要运行的模拟类型代码生成(默认)|解释执行

模型的例子

检测言语的存在

使用VAD的栅极音频信号

频域语音活动检测

可视化噪声功率

块特征

算法

参考

扩展功能

C / C ++代码生成使用Simulink®Coder™生成C和c++代码。金宝app

另请参阅

音频工具箱文档

金宝app

试试MATLAB、Sim金宝appulink和其他产品下载188bet金宝搏

`x`- - - - - -输入信号
矩阵| 1-D向量

`SilenceToSpeech`-阈值(dB)
在[0,1]范围内的标量

`语音特征`-阈值(dB)
在[0,1]范围内的标量

`P`- 演讲的概率存在
标量|行矢量

`N`- 估计每个频率箱的噪声方差
列向量|矩阵

`输入域`—输入域
`时间`(默认)|`频率`

`窗口`—FFT前加窗功能
`损害`(默认)|`Chebyshev.`|`扁头`|`汉明`|`凯撒`|`矩形`

`窗口的侧瓣衰减（DB）`- 窗口窗口衰减（DB）
`60`(默认)|积极的有限标量

`从输入维度继承FFT长度`—“FFT长度”设置为输入采样数
On(默认)| off

`FFT长度`- 频域中的箱数
`1024`(默认)|正整数

`从沉默帧转换到语音框架的概率`-有可能语音框架之后是沉默框架
`0.2`(默认)范围为[0,1]的|标量

`从语音帧过渡到沉默帧的概率`- 沉默框架遵循语音帧的概率
`0.1`(默认)范围为[0,1]的|标量

`输出噪声方差`-输出估计的噪声方差每频率bin
`离开`(默认)|`上`

`模拟使用`-指定要运行的模拟类型
`代码生成`(默认)|`解释执行`

C / C ++代码生成
使用Simulink®Coder™生成C和c++代码。金宝app