YAMNet预处理

yamnet分类的预处理音频

展开所有页面

图书馆：
音频工具箱/深度学习

描述

这YAMNet预处理块从音频输入生成MEL谱图，该音频输入可以馈送到亚马特掠夺网络或接受与Yamnet相同输入的网络。

港口

输入

展开全部

`奥地策`——声音数据
列向量

声音数据分类，指定为单通道信号（列向量）。如果输入信号的采样率（Hz）是16E3，对输入帧长度没有限制。如果输入信号的采样率（Hz）不同于16e3，则输入帧长度必须是块执行的重采样操作的抽取因子的倍数。如果输入帧长度不满足这个条件，则块抛出一个带有抽取因子信息的错误消息。

数据类型：单身的|双倍的

输出

展开全部

`特征`- 可以馈送到yamnet净化网络的MEL谱图
96-by-64矩阵

梅尔光谱图产生于奥地策，返回为96×64矩阵，其中：

96.- 表示每个MEL谱图中的10ms帧的数量
64.- 表示跨越125Hz至7.5 kHz的熔点的数量

连续96×64孔谱图之间的重叠由值确定重叠的百分比(%)范围。

每个96×64矩阵表示单个熔点谱图。有关此块如何生成MEL谱图的详细信息，请参阅算法。

数据类型：单身的

参数

展开全部

`输入信号的采样率（Hz）`- Hz中输入信号的采样率
`16E3.`(默认)|正标量

输入信号的采样率(Hz)，指定为一个正标量。

数据类型：单身的|双倍的

`重叠的百分比(%)`- 连续熔点之间的重叠百分比
`50.`(默认)| [0 100)

将连续MEL谱图之间的重叠百分比指定为范围的标量[0 100）。

数据类型：单身的|双倍的

模型例子

使用等效的yamnet块比较声音分类器块

显示声音分类器块相当于yamnet预处理块和yamnet块的级联。

用YAMNet在Simulink中检测空压机声音金宝app

在Simulink中使用预先训练的网络金宝app^®这是通过迁移学习产生的。

块特征

数据类型	`双倍的`\|`单身的`
直接引线	`没有`
多维信号	`没有`
可变尺寸信号	`没有`
零交叉检测	`没有`

算法

展开全部

这YAMNet预处理块从音频输入生成MEL谱图。这些MEL谱图可以馈送到yamnet掠夺网络或接受与yamnet相同输入的网络。

预处理步骤

投掷奥地策单身并重新取决于16 kHz。
使用25 ms的周期Hann窗口（400个样本）计算单面短时傅立叶变换，其中10 ms跳（160个样本）和512点DFT。
将复数频谱值转换为幅度并丢弃相位信息。
通过64波段熔融滤波器组通过单面幅度STFT。这样做将257长的STFT向量转换为MEL级别的64长向量。
将64长度的向量转换为对数尺度。
将载体缓冲到大小96-×64的输出，其中96是MEL谱图中的频谱数，64是熔点的数量。连续96×64孔谱图之间的重叠由值确定重叠的百分比(%)范围。

参考文献

Gemmeke, Jort F.， Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal和Marvin Ritter。音频集:用于音频事件的本体和人类标记的数据集。2017 IEEE声学、语音和信号处理国际会议(ICASSP)，IEEE，2017，第776-80页。doi.org（crossref），DOI：10.1109 / ICASSP.2017.7952261。

[2] Hershey，Shawn，Sourish Chaudhuri，Daniel P. W. Ellis，Jort F. Gemmeke，Aren Jansen，R. Channing Moore，Manoj Plakal等。“CNN架构用于大规模音频分类。”2017 IEEE声学、语音和信号处理国际会议(ICASSP)， IEEE, 2017，第131-35页。doi.org（crossref），DOI：10.1109 / ICASSP.2017.7952132。