主要内容

YAMNet

YAMNet声音分类网络

  • 库:
  • 音频工具箱/深度学习

  • YAMNet块

描述

YAMNet块利用预先训练的声音分类网络,该网络在AudioSet数据集上训练,以预测来自AudioSet本体的音频事件。

港口

输入

全部展开

Mel谱图,指定为96 × 64矩阵或96 × 64 × 1 × -N数组,地点:

  • 96——表示每个mel谱图中25毫秒帧的数量

  • 64——表示跨越125 Hz到7.5 kHz的mel频带的数量

  • N——通道数量。

您可以使用YAMNet预处理块生成MEL谱图。这些光谱图的尺寸是96 × 64。

数据类型:|

输出

全部展开

预测声音标签,作为枚举标量返回。

数据类型:枚举

每个支持的声音标签的预测激活或得分值,作为1 × 521向量返回,其中521是YAMNet中金宝app的类数。

数据类型:

预测分数的类标签,作为1 × 521向量返回。

数据类型:枚举

参数

全部展开

用于预测的小批的大小,指定为正整数。更大的迷你批处理需要更多的内存,但可以导致更快的预测。

数据类型:int8|int16|int32|int64|uint8|uint16|uint32|uint64

开启输出端口声音,输出分类声音。

打开输出端口分数而且标签,它会输出所有预测的分数和相关的班级标签。

块特征

数据类型

|

直接引线

没有

多维信号

没有

适应信号

没有

讨论二阶导数过零检测

没有

算法

全部展开

参考文献

[1] Gemmeke, Jort F., Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal和Marvin Ritter。音频集:音频事件的本体和人类标记数据集2017 IEEE声学、语音和信号处理国际会议(ICASSP), IEEE, 2017, pp. 776-80。DOI.org (Crossref), doi: 10.1109 / ICASSP.2017.7952261。

[2] Hershey, Shawn, Sourish Chaudhuri, Daniel P. W. Ellis, Jort F. Gemmeke, Aren Jansen, R. Channing Moore, Manoj Plakal等,“用于大规模音频分类的CNN架构。”2017 IEEE声学、语音和信号处理国际会议(ICASSP)《电子工程学报》,2017,pp. 131-35。DOI.org (Crossref), doi: 10.1109 / ICASSP.2017.7952132。

扩展功能

版本历史

R2021b中引入