主要内容

YAMNet预处理

预处理音频,用于YAMNet分类

  • 库:
  • 音频工具箱/深度学习

  • YAMNet预处理块

描述

YAMNet预处理块从音频输入生成mel谱图,可以输入到YAMNet预训练网络或接受与YAMNet相同输入的网络。

港口

输入

全部展开

将声音数据进行分类,指定为单通道信号(列向量)。如果输入信号采样率(Hz)是16e3,对输入帧长度没有限制。如果输入信号采样率(Hz)不同于16e3,则输入帧长度必须是块执行的重采样操作的抽取因子的倍数。如果输入帧长度不满足这个条件,则块抛出一个带有抽取因子信息的错误消息。

数据类型:|

输出

全部展开

梅尔光谱图产生于audioIn,返回为96 × 64矩阵,其中:

  • 96——表示每个mel谱图中10毫秒帧的数量

  • 64——代表跨越125赫兹到7.5 kHz的mel频带的数量

连续96 × 64 mel光谱图之间的重叠由重叠的百分比(%)参数。

每个96 × 64矩阵代表一个单独的mel谱图。有关此块如何生成mel谱图的更多细节,请参见算法

数据类型:

参数

全部展开

输入信号的采样率(Hz),指定为一个正标量。

数据类型:|

指定连续mel光谱图之间的重叠百分比为范围[0 100]内的标量。

数据类型:|

块特征

数据类型

|

直接引线

没有

多维信号

没有

适应信号

没有

讨论二阶导数过零检测

没有

算法

全部展开

YAMNet预处理块生成MEL谱图从音频输入。这些mel谱图可以被输入到YAMNet预先训练过的网络或接收与YAMNet相同输入的网络。

参考文献

Gemmeke, Jort F., Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal和Marvin Ritter。音频集:用于音频事件的本体和人类标记的数据集。2017 IEEE声学、语音和信号处理国际会议(ICASSP), IEEE, 2017, pp. 776-80。DOI.org (Crossref), doi: 10.1109 / ICASSP.2017.7952261。

[2] Hershey, Shawn, Sourish Chaudhuri, Daniel P. W. Ellis, Jort F. Gemmeke, Aren Jansen, R. Channing Moore, Manoj Plakal, et al.《CNN大规模音频分类架构》。2017 IEEE声学、语音和信号处理国际会议(ICASSP), IEEE, 2017,第131-35页。DOI.org (Crossref), doi: 10.1109 / ICASSP.2017.7952132。

扩展功能

C / c++代码生成
使用Simulink®Coder™生成C和c++代码。金宝app

介绍了R2021b