主要内容

YAMNet预处理

yamnet分类的预处理音频

  • 图书馆:
  • 音频工具箱/深度学习

  • yamnet预处理块

描述

YAMNet预处理块从音频输入生成MEL谱图,该音频输入可以馈送到亚马特掠夺网络或接受与Yamnet相同输入的网络。

港口

输入

展开全部

声音数据分类,指定为单通道信号(列向量)。如果输入信号的采样率(Hz)是16E3,对输入帧长度没有限制。如果输入信号的采样率(Hz)不同于16e3,则输入帧长度必须是块执行的重采样操作的抽取因子的倍数。如果输入帧长度不满足这个条件,则块抛出一个带有抽取因子信息的错误消息。

数据类型:单身的|双倍的

输出

展开全部

梅尔光谱图产生于奥地策,返回为96×64矩阵,其中:

  • 96.- 表示每个MEL谱图中的10ms帧的数量

  • 64.- 表示跨越125Hz至7.5 kHz的熔点的数量

连续96×64孔谱图之间的重叠由值确定重叠的百分比(%)范围。

每个96×64矩阵表示单个熔点谱图。有关此块如何生成MEL谱图的详细信息,请参阅算法

数据类型:单身的

参数

展开全部

输入信号的采样率(Hz),指定为一个正标量。

数据类型:单身的|双倍的

将连续MEL谱图之间的重叠百分比指定为范围的标量[0 100)。

数据类型:单身的|双倍的

块特征

数据类型

双倍的|单身的

直接引线

没有

多维信号

没有

可变尺寸信号

没有

零交叉检测

没有

算法

展开全部

YAMNet预处理块从音频输入生成MEL谱图。这些MEL谱图可以馈送到yamnet掠夺网络或接受与yamnet相同输入的网络。

参考文献

Gemmeke, Jort F., Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal和Marvin Ritter。音频集:用于音频事件的本体和人类标记的数据集。2017 IEEE声学、语音和信号处理国际会议(ICASSP),IEEE,2017,第776-80页。doi.org(crossref),DOI:10.1109 / ICASSP.2017.7952261。

[2] Hershey,Shawn,Sourish Chaudhuri,Daniel P. W. Ellis,Jort F. Gemmeke,Aren Jansen,R. Channing Moore,Manoj Plakal等。“CNN架构用于大规模音频分类。”2017 IEEE声学、语音和信号处理国际会议(ICASSP), IEEE, 2017,第131-35页。doi.org(crossref),DOI:10.1109 / ICASSP.2017.7952132。

扩展能力

C / C ++代码生成
使用Simulink®Coder™生成C和C ++代码。金宝app

介绍在R2021B.