主要内容

深入学习音频应用程序

发展与深度学习的音频应用程序通常包括创建和访问数据集、预处理和探索数据,开发预测模型和部署和共享应用程序。MATLAB®提供了支持的每个阶段开发的工具箱。金宝app

虽然音频工具箱™支持深度学习的每个阶段的工金宝app作流程,其主要贡献访问和创建数据数据预处理和探索

访问和创建数据

深度学习网络执行最好当你获得大量训练数据集。然而,音频的多样性,演讲,和声学信号,和缺乏大型已标示的数据集,使得访问大训练集的困难。使用深度学习音频文件的方法时,您可能需要开发新的或扩大现有的数据集。您可以使用信号贴标签机应用程序帮助您放大或创建新的标记数据集。

一旦你有一个最初的数据集,您可以放大它通过应用扩展等技术转移,时间改变,音量控制,和噪音。增加你想应用的类型取决于相关的音频特征,演讲,或声学应用程序。例如,距(或转移声道扰动)和时间拉伸是典型的增加自动语音识别技术(ASR)。远场ASR,增加训练数据通过使用人工混响是常见的。音频工具箱提供了audioDataAugmenter帮你申请扩增确定性或概率。

深度学习工作流程中使用的训练数据通常是装入内存太大。有效地访问数据和执行常见的深度学习任务(如一个数据集划分成火车,验证和测试集)很快就会变得难以管理。音频工具箱提供了audioDatastore帮助您管理和加载大数据集。

数据预处理和探索

预处理音频数据包括任务重采样等音频文件一致的采样率,消除地区的沉默,并削减音频时间一致。你能完成这些任务通过使用MATLAB信号处理工具箱™,和DSP系统工具箱™。音频工具箱提供了额外的audio-specific工具来帮助你进行预处理,如detectSpeechvoiceActivityDetector

音频是高度尺寸和常常包含冗余和不必要的信息。从历史上看,mel-frequency cepstral系数(mfcc)和低层次的功能,如讨论二阶导数过零率和光谱形状描述符,一直占主导地位的特性来自音频信号用于机器学习系统。机器学习系统训练这些特性计算效率,通常需要更少的训练数据。音频工具箱提供了audioFeatureExtractor这样你就可以有效地提取音频特性。

深度学习的发展架构,提高计算能力,和大型数据集和已标示了依赖hand-designed特性。最先进的结果通常是通过使用梅尔·色(melSpectrogram)、线性谱图或原始音频波形。音频工具箱提供了audioFeatureExtractor这样你可以提取多个听觉谱图,如梅尔声谱图,gammatone谱图,或树皮谱图,对低层次的描述符。使用audioFeatureExtractor使您能够系统地确定音频特性为您深度学习模型。或者,您可以使用melSpectrogram函数快速提取梅尔声谱图。音频工具箱还提供了修改后的离散余弦变换(多层螺旋ct),它返回一个紧凑的谱表示没有任何损失的信息。

示例应用程序和工作流

选择特性,决定什么样的扩增和预处理的应用,和设计深度学习模型都依赖于训练数据的性质和需要解决的问题。音频工具箱提供的例子,说明深度学习工作流适应不同数据集和音频应用程序。下表列出了一些音频深度学习的例子通过网络类型(卷积神经网络、神经网络完全连接或复发性神经网络)和问题分类(分类、回归、或sequence-to-sequence)。

引用

[1]Purwins, H。,B. Li, T. Virtanen, J. Schülter, S. Y. Chang, and T. Sainath. "Deep Learning for Audio Signal Processing."选择主题的信号处理杂志》上。问题2卷。13日,2019年,页206 - 219。

另请参阅

|||

相关的话题