YAMNet预处理

预处理音频，用于YAMNet分类

全部展开页面

库:
音频工具箱/深度学习

描述

的YAMNet预处理块从音频输入生成mel谱图，可以输入到YAMNet预训练网络或接受与YAMNet相同输入的网络。

港口

输入

全部展开

`audioIn`——声音数据
列向量

将声音数据进行分类，指定为单通道信号(列向量)。如果输入信号采样率(Hz)是16e3，对输入帧长度没有限制。如果输入信号采样率(Hz)不同于16e3，则输入帧长度必须是块执行的重采样操作的抽取因子的倍数。如果输入帧长度不满足这个条件，则块抛出一个带有抽取因子信息的错误消息。

数据类型:单|双

输出

全部展开

`特性`- Mel谱图，可输入YAMNet预训练网络
96, - 64矩阵

梅尔光谱图产生于audioIn，返回为96 × 64矩阵，其中:

96——表示每个mel谱图中10毫秒帧的数量
64——代表跨越125赫兹到7.5 kHz的mel频带的数量

连续96 × 64 mel光谱图之间的重叠由重叠的百分比(%)参数。

每个96 × 64矩阵代表一个单独的mel谱图。有关此块如何生成mel谱图的更多细节，请参见算法．

数据类型:单

参数

全部展开

`输入信号采样率(Hz)`-输入信号的采样率，单位为Hz
`16 e3`(默认)|正标量

输入信号的采样率(Hz)，指定为一个正标量。

数据类型:单|双

`重叠的百分比(%)`-连续mel谱图重叠百分比
`50`(默认)| [0 100)

指定连续mel光谱图之间的重叠百分比为范围[0 100]内的标量。

数据类型:单|双

模型的例子

比较声音分类器块与等效YAMNet块

表明Sound Classifier块等价于YAMNet预处理块和YAMNet块的级联。

用YAMNet在Simulink中检测空压机声音金宝app

在Simulink中使用预先训练过的网络金宝app^®这是通过迁移学习产生的。

块特征

数据类型	`双`\|`单`
直接引线	`没有`
多维信号	`没有`
适应信号	`没有`
讨论二阶导数过零检测	`没有`

算法

全部展开

的YAMNet预处理块生成MEL谱图从音频输入。这些mel谱图可以被输入到YAMNet预先训练过的网络或接收与YAMNet相同输入的网络。

预处理步骤

投audioIn以单一和重采样到16千赫。
使用25 ms周期Hann窗(400个样本)和10 ms跳频(160个样本)和512点DFT计算单边短时间傅里叶变换。
将复光谱值转换为幅值并丢弃相位信息。
将单侧幅度的STFTs通过64波段熔融间隔滤波器组。这样做将257长度的STFT向量转换为mel尺度中的64长度向量。
将64长度的向量转换为对数尺度。
将矢量缓冲到96 × 64的输出中，其中96是mel谱图中的光谱数目，64是mel波段的数目。连续96 × 64 mel光谱图之间的重叠由重叠的百分比(%)参数。

参考文献

Gemmeke, Jort F.， Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal和Marvin Ritter。音频集:用于音频事件的本体和人类标记的数据集。2017 IEEE声学、语音和信号处理国际会议(ICASSP)， IEEE, 2017, pp. 776-80。DOI.org (Crossref), doi: 10.1109 / ICASSP.2017.7952261。

[2] Hershey, Shawn, Sourish Chaudhuri, Daniel P. W. Ellis, Jort F. Gemmeke, Aren Jansen, R. Channing Moore, Manoj Plakal, et al.《CNN大规模音频分类架构》。2017 IEEE声学、语音和信号处理国际会议(ICASSP)， IEEE, 2017，第131-35页。DOI.org (Crossref), doi: 10.1109 / ICASSP.2017.7952132。