具有深度学习的音频应用通常包括创建和访问数据集,预处理和探索数据,开发预测模型以及部署和共享应用程序。马铃薯®提供工具箱,以支持开发的每个阶段。金宝app
虽然音频工具箱™支持深度学习工作流程的每个金宝app阶段,但其主要贡献是访问和创建数据和预处理和探索数据。
当您访问大型培训数据集时,深度学习网络表现最佳。然而,音频,语音和声信号的多样性,以及缺乏大型标记的数据集,使得访问大型训练集困难。在音频文件上使用深度学习方法时,您可能需要开发新的数据集或展开现有数据集。音频工具箱提供音符贴标程序应用程序帮助您放大或创建新标记的数据集。
有一个初始数据集后,可以通过应用增强技术(例如音调转移,时间转移,音量控制和噪声添加)来放大它。您要应用的增强类型取决于您的音频,语音或声学应用程序的相关特征。例如,音调移位(或声带扰动)和时间拉伸是自动语音识别(ASR)的典型增强技术。对于远场ASR,通过使用人工混响来增强培训数据是常见的。音频工具箱提供audiodataAugmenter.
帮助您确定地区或概率地施加增强。
深度学习工作流中使用的培训数据通常太大而无法适应内存。有效地访问数据并执行常见的深度学习任务(例如将数据分割为列车,验证和测试集)可以快速变为无法管理。音频工具箱提供audiodatastore.
帮助您管理和加载大数据集。
预处理音频数据包括将音频文件重新采样的任务,以一致的采样率,将静音区域移除,并将音频修剪到一致的持续时间。您可以使用MATLAB,信号处理工具箱™和DSP系统工具箱™来完成这些任务。Audio Toolbox提供额外的特定音频工具,可帮助您执行预处理,例如检测
和盲肠助立力指示灯
。
音频是高度的,包含冗余和通常不必要的信息。从历史上看,熔融频率抗肌肌系数(MFCC.
)和低级特征,例如过零率和光谱形状描述符,是从音频信号导出的主要特征,以用于机器学习系统。在这些功能上培训的机器学习系统是计算的高效,并且通常需要较少的训练数据。音频工具箱提供audiofeatureextractor.
这样您就可以有效地提取音频功能。
深度学习架构的进步,增加对计算能力的访问,以及大型和标记良好的数据集的依赖性对手工设计的功能依赖。最先进的结果通常使用MEL谱图实现(MELSPectRoge.
),线性谱图或原始音频波形。音频工具箱提供audiofeatureextractor.
因此,您可以提取多种听觉谱图,例如Mel谱图,γ谱图或Bark谱图,并将其与低级描述符对配对。使用audiofeatureextractor.
使您可以系统地确定深度学习模型的音频功能。或者,您可以使用MELSPectRoge.
功能才能快速提取MEL谱图。音频工具箱还提供修改的离散余弦变换(MDCT.
),返回紧凑的光谱表示,而无需任何信息丢失。
选择功能,决定应用什么样的增强和预处理,并设计深层学习模型依赖于培训数据的性质和您想要解决的问题。Audio Toolbox提供了示例,示出了适用于不同数据集和音频应用程序的深度学习工作流程。该表列出了网络类型(卷积神经网络,完全连接的神经网络或经常性神经网络)和问题类别(分类,回归或序列到序列)的音频深度学习示例。
CNN或FC. |
LSTM,Bilstm或Gru |
||||||||||||||||||||||
分类 |
|
|
|||||||||||||||||||||
回归或序列到序列 |
|
[1] Purwins,H.,B.LI,T.Virtanen,J.Schülter,S. Y. Chang和T. Sainath。“深入学习音频信号处理。”中国信号处理选题杂志CHINESE。卷。13,第2,2019号,第206-219页。
音符贴标程序|audiodataAugmenter.
|audiodatastore.
|audiofeatureextractor.