主要内容

VGGish预处理

预处理对VGGish音频特征提取

自从R2022a

  • VGGish预处理块

库:
音频工具箱/深度学习

描述

的VGGish预处理阻止生成梅尔声音(音频输入,然后您可以养活VGGish pretrained网络或网络,接受VGGish一样的输入。

港口

输入

全部展开

声音数据,指定为一个一个频道的信号(列向量)。如果输入信号的采样率(Hz)是16 e3,没有任何限制输入帧长度。如果输入信号的采样率(Hz)不同于16 e3,然后输入帧长度必须大量毁灭的多个因素的重采样操作块执行。如果输入帧长度不满足这个条件,块抛出一个错误消息与信息大量毁灭的因素。

数据类型:|

输出

全部展开

梅尔·谱图产生的输入音频信号,作为96 -返回- 64矩阵,地点:

  • 96年——代表女士25帧的数量在每个梅尔·声谱图

  • 64年——代表梅尔乐队的数量生成125赫兹至7.5千赫

连续重叠96 - 64年-梅尔·色是由价值决定的重叠的百分比(%)参数。您可以提供的梅尔谱图作为输入VGGish pretrained网络或网络,接受VGGish一样的输入。

数据类型:

参数

全部展开

输入信号的采样率Hz,指定为一个积极的标量。

指定重叠之间的比例连续梅尔·色作为标量范围在[0 100)。

块特征

数据类型

|

直接引线

没有

多维信号

没有

适应信号

没有

讨论二阶导数过零检测

没有

算法

全部展开

引用

[1]Gemmeke, Jort F。丹尼尔·p·w·埃利斯,迪伦弗里德曼,詹森,韦德劳伦斯,r·钱宁摩尔Manoj Plakal,马文·里特。“音频设置:本体和Human-Labeled音频事件的数据集。“在2017年IEEE国际会议音响、演讲和信号处理(ICASSP),776 - 80。新奥尔良,LA: IEEE 2017。https://doi.org/10.1109/ICASSP.2017.7952261。

[2]好时,肖恩,微酸的乔杜里,丹尼尔·p·w·埃利斯Jort f . Gemmeke Jansen, r·钱宁摩尔Manoj Plakal, et al。”CNN架构对大规模音频分类。“在2017年IEEE国际会议音响、演讲和信号处理(ICASSP)131 - 35。新奥尔良,LA: IEEE 2017。https://doi.org/10.1109/ICASSP.2017.7952132。

扩展功能

C / c++代码生成
使用仿真软件生成C和c++代码®编码器™。金宝app

版本历史

介绍了R2022a