主要内容

音频应用的深度学习简介

使用深度学习开发音频应用程序通常包括创建和访问数据集、预处理和探索数据、开发预测模型以及部署和共享应用程序。MATLAB®提供工具箱以支持开发的每个阶段。金宝app

虽然Audio Toolbox™支持深度学金宝app习工作流程的每个阶段,但其主要贡献是访问和创建数据而且预处理和探索数据

访问和创建数据

当你可以访问大型训练数据集时,深度学习网络表现最好。然而,音频、语音和声学信号的多样性,以及缺乏标记良好的大型数据集,使得访问大型训练集变得困难。在音频文件上使用深度学习方法时,您可能需要开发新的数据集或扩展现有数据集。您可以使用信号贴标签机应用程序,帮助您扩大或创建新的标记数据集。

一旦你有了一个初始数据集,你就可以通过应用增强技术来扩大它,比如音调转移、时移、音量控制和噪声添加。要应用的增强类型取决于音频、语音或声学应用程序的相关特征。例如,音高转换(或声道扰动)和时间拉伸是自动语音识别(ASR)的典型增强技术。对于远场ASR,利用人工混响增强训练数据是一种常见的方法。音频工具箱提供audioDataAugmenter帮助您确定或概率地应用扩充。

深度学习工作流程中使用的训练数据通常太大,无法装入内存。高效地访问数据和执行常见的深度学习任务(例如将数据集分成训练集、验证集和测试集)可能很快变得难以管理。音频工具箱提供audioDatastore帮助您管理和加载大型数据集。

预处理和探索数据

预处理音频数据包括将音频文件重新采样到一致的采样率、删除静默区域以及将音频剪辑到一致的持续时间等任务。您可以使用MATLAB、信号处理工具箱™和DSP系统工具箱™来完成这些任务。音频工具箱提供了额外的特定于音频的工具来帮助您执行预处理,例如detectSpeech而且voiceActivityDetector

音频是高度多维的,包含冗余和不必要的信息。历史上,梅尔频率倒谱系数(mfcc)和低级特征,如过零率和频谱形状描述符,一直是音频信号中用于机器学习系统的主要特征。在这些特征上训练的机器学习系统在计算上是高效的,通常需要较少的训练数据。音频工具箱提供audioFeatureExtractor这样你就可以有效地提取音频特征。

深度学习架构的进步、计算能力的增强以及大型且标记良好的数据集减少了对手工设计功能的依赖。最先进的结果通常是使用mel谱图(melSpectrogram)、线性频谱图或原始音频波形。音频工具箱提供audioFeatureExtractor这样你就可以提取多种听觉谱图,如mel谱图、γ - matone谱图或Bark谱图,并将它们与低级描述符配对。使用audioFeatureExtractor使您能够系统地确定深度学习模型的音频特征。或者,您可以使用melSpectrogram功能,快速提取只是MEL谱图。音频工具箱还提供了修改后的离散余弦变换(多层螺旋ct),返回一个紧凑的光谱表示,不会丢失任何信息。

示例应用程序和工作流

选择特征,决定应用什么样的增强和预处理,以及设计深度学习模型,都取决于训练数据的性质和你想要解决的问题。音频工具箱提供了一些例子,说明了适应不同数据集和音频应用程序的深度学习工作流程。该表按网络类型(卷积神经网络、全连接神经网络或循环神经网络)和问题类别(分类、回归或序列到序列)列出了音频深度学习示例。

CNN或FC

LSTM, BiLSTM或GRU

分类

例子 预处理和增强 特征提取与时频变换

基于深度学习的语音指令识别

audioFeatureExtractor对象用于提取log-Bark谱。

基于后期融合的声场景识别

混乱

melSpectrogramwaveletScattering(小波工具箱)

基于gpu的特征提取加速音频深度学习

混乱

audioFeatureExtractor对象用于提取MEL光谱。

例子 预处理和增强 特征提取与时频变换

语音情感识别

audioDataAugmenter

audioFeatureExtractor对象用于提取gtccmfcc和梅尔spectralCrest

音频特征的顺序特征选择

detectSpeech audioFeatureExtractor对象用于扫描提取的特征的组合。

基于声学的机器故障识别

混乱

audioFeatureExtractor对象用于提取光谱描述符。

回归或序列到序列

参考文献

[1]珀文斯,H.,李B., T.维尔塔宁,J. Schülter,张世勇,T.塞纳斯。“音频信号处理的深度学习”信号处理专题选刊.第13卷,2019年第2期,第206-219页。

另请参阅

|||

相关的话题