YAMNet

YAMNet声音分类网络

展开全部页面

库:
音频工具箱/深度学习

描述

的YAMNet块利用预先训练的声音分类网络，该网络在AudioSet数据集上训练，以预测来自AudioSet本体的音频事件。

港口

输入

全部展开

`特性`-梅尔光谱图
96 × 64矩阵| 96 × 64 × 1 ×N数组

Mel谱图，指定为96 × 64矩阵或96 × 64 × 1 × -N数组,地点:

96——表示每个mel谱图中25毫秒帧的数量
64——表示跨越125 Hz到7.5 kHz的mel频带的数量
N——通道数量。

您可以使用YAMNet预处理块生成MEL谱图。这些光谱图的尺寸是96 × 64。

数据类型:单|双

输出

全部展开

`声音`-预测声音标签
枚举标量

预测声音标签，作为枚举标量返回。

数据类型:枚举

`分数`-预测激活或得分
向量

每个支持的声音标签的预测激活或得分值，作为1 × 521向量返回，其中521是YAMNet中金宝app的类数。

数据类型:单

`标签`-预测分数的类别标签
向量

预测分数的类标签，作为1 × 521向量返回。

数据类型:枚举

参数

全部展开

`Mini-batch大小`-小批量的大小
`128`(默认值)|正整数

用于预测的小批的大小，指定为正整数。更大的迷你批处理需要更多的内存，但可以导致更快的预测。

`分类`—选择，输出声音分类
`在`(默认)|`从`

开启输出端口声音，输出分类声音。

`预测`—输出所有分数和相关标签
`从`(默认)|`在`

打开输出端口分数而且标签，它会输出所有预测的分数和相关的班级标签。

模型的例子

比较声音分类器块和等效YAMNet块

说明Sound Classifier块相当于YAMNet预处理块和YAMNet块的级联。

打开脚本

块特征

数据类型	`双`\|`单`
直接引线	`没有`
多维信号	`没有`
适应信号	`没有`
讨论二阶导数过零检测	`没有`

算法

全部展开

预测

该块接受尺寸为96 × 64或96 × 64 × 1 × -的mel谱图N，并使用这些频谱图计算最多三个输出:

声音:最可能发音的标签。每个96 × 64的声谱图输入都有一个“声音”。
分数: 1 × 512的向量。向量中的每个元素都是每个支持的声音标签的得分值。金宝app
标签: 1 × 521向量。向量中的每个元素都是一个声音标签。

参考文献

[1] Gemmeke, Jort F.， Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal和Marvin Ritter。音频集:音频事件的本体和人类标记数据集2017 IEEE声学、语音和信号处理国际会议(ICASSP)， IEEE, 2017, pp. 776-80。DOI.org (Crossref), doi: 10.1109 / ICASSP.2017.7952261。

[2] Hershey, Shawn, Sourish Chaudhuri, Daniel P. W. Ellis, Jort F. Gemmeke, Aren Jansen, R. Channing Moore, Manoj Plakal等，“用于大规模音频分类的CNN架构。”2017 IEEE声学、语音和信号处理国际会议(ICASSP)《电子工程学报》，2017,pp. 131-35。DOI.org (Crossref), doi: 10.1109 / ICASSP.2017.7952132。

扩展功能

C/ c++代码生成
使用Simulink®Coder™生成C和c++代码。金宝app

使用注意事项和限制:

若要生成不依赖于第三方库的泛型C代码，请使用配置参数>代码生成一般类别，设置语言参数C．
要生成c++代码，请在配置参数>代码生成一般类别，设置语言参数c++．若要指定用于生成代码的目标库，请使用代码生成>接口类别，设置目标库参数。将此参数设置为没有一个生成不依赖于第三方库的通用c++代码。
对于基于ert的目标，金宝app支持:可变大小信号参数中的代码生成>接口窗格必须启用。
有关支持代码生成的网络和层的列表，请参见金宝app代码生成支持的网络和层金宝app(MATLAB编码器)．

版本历史

R2021b中引入

另请参阅

YAMNet

描述

港口

输入

特性-梅尔光谱图96 × 64矩阵| 96 × 64 × 1 ×N数组

输出

声音-预测声音标签枚举标量

分数-预测激活或得分向量

标签-预测分数的类别标签向量

参数

Mini-batch大小-小批量的大小128(默认值)|正整数

分类—选择，输出声音分类在(默认)|从

预测—输出所有分数和相关标签从(默认)|在

模型的例子

比较声音分类器块和等效YAMNet块

块特征

算法

预测

参考文献

扩展功能

C/ c++代码生成使用Simulink®Coder™生成C和c++代码。金宝app

版本历史

另请参阅

应用程序

块

功能

`特性`-梅尔光谱图
96 × 64矩阵| 96 × 64 × 1 ×N数组

`声音`-预测声音标签
枚举标量

`分数`-预测激活或得分
向量

`标签`-预测分数的类别标签
向量

`Mini-batch大小`-小批量的大小
`128`(默认值)|正整数

`分类`—选择，输出声音分类
`在`(默认)|`从`

`预测`—输出所有分数和相关标签
`从`(默认)|`在`

C/ c++代码生成
使用Simulink®Coder™生成C和c++代码。金宝app