YAMNet预处理

预处理对YAMNet音频分类

自从R2021b

扩展所有的页面

库:
音频工具箱/深度学习

描述

的YAMNet预处理阻止生成梅尔声音(音频输入,可以喂YAMNet pretrained网络或网络,接受YAMNet一样的输入。

例子

比较健全的分类器与等效YAMNet块街区

显示良好的级联分类器块相当于YAMNet预处理块和YAMNet块。

打开脚本

使用YAMNet检测空气压缩机声音仿真软件金宝app

在仿真软件中使用pre-trained网络金宝app^®这是学习使用转移生成。

打开脚本

港口

输入

全部展开

audioIn- - - - - -声音数据
列向量

声音数据分类,指定为一个一个频道的信号(列向量)。如果输入信号的采样率(Hz)是16 e3,没有任何限制输入帧长度。如果输入信号的采样率(Hz)不同于16 e3,然后输入帧长度必须大量毁灭的多个因素的重采样操作块执行。如果输入帧长度不满足这个条件,块抛出一个错误消息与信息大量毁灭的因素。

数据类型:单|双

输出

全部展开

特性- - - - - -梅尔·色,可以喂YAMNet pretrained网络
96,- 64矩阵

梅尔·色产生audioIn作为96 -返回- 64矩阵,地点:

96年——代表女士25帧的数量在每个梅尔·声谱图
64年——代表梅尔乐队的数量生成125赫兹至7.5千赫

连续重叠96 - 64年-梅尔·色是由价值决定的重叠的百分比(%)参数。

每个96 -,- 64矩阵代表单个梅尔声谱图。更多细节关于这个物体产生梅尔·色,看到的算法。

数据类型:单

参数

全部展开

输入信号的采样率(Hz)- - - - - -输入信号的采样率赫兹
`16 e3`(默认)|积极的标量

输入信号的采样率Hz,指定为一个积极的标量。

数据类型:单|双

重叠的百分比(%)- - - - - -重叠连续梅尔·色之间的比例
`50`0(默认)| (100)

指定重叠之间的比例连续梅尔·色作为标量范围在[0 100)。

数据类型:单|双

块特征

数据类型	`双`\|`单`
直接引线	`没有`
多维信号	`没有`
适应信号	`没有`
讨论二阶导数过零检测	`没有`

算法

全部展开

的YAMNet预处理阻止生成梅尔声音(音频输入。可以提供给这些梅尔·色YAMNet pretrained网络或网络,接受YAMNet一样的输入。

预处理步骤

投audioIn单,重新取样16赫兹。
计算片面的短时傅里叶变换使用25 ms周期性损害窗口(400个样本),10 ms跳DFT(160个样本)和512点。
把复杂的光谱值大小和丢弃相位信息。
片面的级STFTs穿过64 -带mel-spaced滤波器银行。这样做将257 - STFT向量长度64 -梅尔向量的长度。
64 -长度向量转换为对数尺度。
缓冲的向量到输出大小由- 64,96 - 96是梅尔的光谱谱图和64是梅尔乐队的数量。连续重叠96 - 64年-梅尔·色是由价值决定的重叠的百分比(%)参数。

引用

[1]Gemmeke, Jort F。丹尼尔·p·w·埃利斯,迪伦弗里德曼,詹森,韦德劳伦斯,r·钱宁摩尔Manoj Plakal,马文·里特。“音频设置:本体和Human-Labeled数据集音频事件。”2017年IEEE国际会议音响、演讲和信号处理(ICASSP)IEEE 2017,页776 - 80。DOI.org (Crossref),doi: 10.1109 / ICASSP.2017.7952261。

[2]好时,肖恩,微酸的乔杜里,丹尼尔·p·w·埃利斯Jort f . Gemmeke Jansen, r·钱宁摩尔Manoj Plakal, et al。”CNN大规模的音频分类架构。”2017年IEEE国际会议音响、演讲和信号处理(ICASSP),2017岁的IEEE 131 - 35页。DOI.org (Crossref),doi: 10.1109 / ICASSP.2017.7952132。

扩展功能

C / c++代码生成
使用仿真软件生成C和c++代码®编码器™。金宝app

版本历史

介绍了R2021b

另请参阅

YAMNet预处理

描述

例子

比较健全的分类器与等效YAMNet块街区

使用YAMNet检测空气压缩机声音仿真软件金宝app

港口

输入

audioIn- - - - - -声音数据列向量

输出

特性- - - - - -梅尔·色,可以喂YAMNet pretrained网络96,- 64矩阵

参数

输入信号的采样率(Hz)- - - - - -输入信号的采样率赫兹16 e3(默认)|积极的标量

重叠的百分比(%)- - - - - -重叠连续梅尔·色之间的比例500(默认)| (100)

块特征

算法

预处理步骤

引用

扩展功能

C / c++代码生成使用仿真软件生成C和c++代码®编码器™。金宝app

版本历史

另请参阅

应用程序

块

功能

audioIn- - - - - -声音数据
列向量

特性- - - - - -梅尔·色,可以喂YAMNet pretrained网络
96,- 64矩阵

输入信号的采样率(Hz)- - - - - -输入信号的采样率赫兹
`16 e3`(默认)|积极的标量

重叠的百分比(%)- - - - - -重叠连续梅尔·色之间的比例
`50`0(默认)| (100)

C / c++代码生成
使用仿真软件生成C和c++代码®编码器™。金宝app