使用深度学习的音频处理

利用音频和语音处理应用扩展深度学习工作流

通过使用deep learning Toolbox™和audio Toolbox™，将深度学习应用于音频和语音处理应用程序。有关信号处理应用，请参见使用深度学习的信号处理．有关无线通信中的应用程序，请参见使用深度学习的无线通信．

应用程序

定义和可视化底层真相标签

功能

数据管理与扩充

`audioDatastore`	收集音频文件的数据存储
`audioDataAugmenter`	增加音频数据

特征提取

`audioFeatureExtractor`	简化音频特征提取
`ivectorSystem`	创建矢量i系统
`openl3Features`	提取OpenL3特性
`pitchnn`	利用深度学习神经网络估计音高
`vggishFeatures`	提取VGGish特性

Pretrained网络

`classifySound`	对音频信号中的声音进行分类
`绉`	绉神经网络
`crepePreprocess`	面向CREPE深度学习网络的音频预处理
`crepePostprocess`	CREPE深度学习网络的后处理输出
`openl3`	OpenL3神经网络
`openl3Features`	提取OpenL3特性
`openl3Preprocess`	对音频进行预处理，用于OpenL3特征提取
`pitchnn`	利用深度学习神经网络估计音高
`vggish`	VGGish神经网络
`vggishFeatures`	提取VGGish特性
`vggishPreprocess`	预处理音频进行VGGish特征提取
`yamnet`	YAMNet神经网络
`yamnetGraph`	YAMNet AudioSet本体图
`yamnetPreprocess`	对音频进行预处理用于YAMNet分类

主题

音频应用深度学习导论(音频工具箱)

学习将深度学习应用于音频应用的常用工具和工作流程。

使用深度学习分类声音(音频工具箱)

训练、验证和测试简单的长短期记忆(LSTM)来分类声音。

使用预先训练的音频网络进行迁移学习

使用迁移学习对YAMNet(一种预训练卷积神经网络，CNN)进行再训练，对一组新的音频信号进行分类。

使用自定义SincNet层和深度学习的说话人识别

使用定制的深度学习层执行语音识别，实现梅尔规模的滤波器组。

使用深度学习网络消除语音干扰

训练一个深度学习模型，去除语音中的混响。

Simulink中的语音命令识别金宝app

使用Simulink检测音频中语音命令的存在金宝app^®模型。

基于小波散射和深度学习的语音数字识别

这个例子展示了如何使用机器和深度学习技术对语音数字进行分类。

利用深度学习网络的鸡尾酒会源分离

这个例子展示了如何使用深度学习网络来隔离语音信号。

音频特性的顺序特征选择

这个例子展示了一个典型的工作流特征选择应用于语音数字识别的任务。

使用深度学习学习预强调滤波

使用卷积深度网络学习一个预强调滤波器用于语音识别。

特色的例子

用x向量识别说话人

开发一个x向量系统来执行说话人识别。

打开生活的脚本

演讲者用x向量写日记

讲话者日记是根据讲话者身份将音频信号分割成若干段的过程。它回答了“谁在什么时候说话”的问题，而不需要事先知道说话者的情况，根据应用程序，也不需要事先知道说话者的数量。

打开生活的脚本

使用内存不足的音频数据训练语音数字识别网络

使用转换后的数据存储在内存不足的音频数据上训练语音数字识别网络。在本例中，您将对用于训练卷积神经网络(CNN)的音频数据应用随机音高变换。对于每次训练迭代，使用audioDataAugmenter对象扩充音频数据，然后使用audioFeatureExtractor对象提取特征。本例中的工作流适用于训练循环中使用的任何随机数据增强。当底层音频数据集或训练特征不适合存储时，该工作流程也适用。

打开生活的脚本

使用内存不足的特征训练语音数字识别网络

使用转换的数据存储在内存不足的听觉谱图上训练一个语音数字识别网络。在本例中，您使用audioDatastore和audioFeatureExtractor从音频中提取听觉谱图，并将它们写入磁盘。然后在培训期间使用signalDatastore访问这些特性。当训练特征不适合记忆时，工作流是有用的。在这个工作流中，您只提取一次特征，如果您在迭代深度学习模型设计，这将加快您的工作流。

打开生活的脚本

使用Intel MKL-DNN生成噪声码的关键字定位

演示如何使用双向长短期记忆(BiLSTM)网络和mel频率倒谱系数(MFCC)特征提取来生成关键字识别的代码。MATLAB®编码器™具有深度学习支持，可以生成一个独立的可执行文件金宝app(.exe)。在MATLAB®(.mlx)文件和生成的可执行文件之间的通信发生在异步用户数据报协议(UDP)。输入的语音信号是使用时间显示器显示的。掩码显示为蓝色矩形，围绕着关键字YES的斑点实例。有关MFCC特征提取和深度学习网络训练的更多细节，请访问使用MFCC和LSTM网络在噪声中识别关键字。

打开生活的脚本

树莓派噪声代码生成中的关键字识别

演示了在树莓Pi™上使用双向长短期记忆(BiLSTM)网络和mel频率倒谱系数(MFCC)特征提取的关键字识别代码生成。MATLAB®Coder™具有深度学习支持，可以在树莓派上生成独立的金宝app可执行文件(.elf)。MATLAB®(.mlx)文件和生成的可执行文件之间的通信发生在异步用户数据报协议(UDP)。输入的语音信号是使用时间显示器显示的。掩码显示为蓝色矩形，围绕着关键字YES的斑点实例。有关MFCC特征提取和深度学习网络训练的更多细节，请访问使用MFCC和LSTM网络在噪声中识别关键字。

打开生活的脚本

基于深度学习的语音命令识别

训练一个深度学习模型来检测音频中语音命令的存在。该示例使用语音命令数据集[1]训练卷积神经网络来识别给定的命令集。

打开脚本

使用英特尔MKL-DNN生成语音命令识别码

在Intel®处理器上部署语音命令识别的特征提取和卷积神经网络(CNN)。为了生成特征提取和网络代码，您使用MATLAB编码器和英特尔深度神经网络数学内核库(MKL-DNN)。在这个示例中，生成的代码是一个MATLAB可执行(MEX)函数，由一个MATLAB脚本调用，该脚本显示预测的语音命令以及时域信号和听觉谱图。有关音频预处理和网络训练的详细信息，请参见使用深度学习的语音命令识别。

打开生活的脚本

树莓派语音命令识别代码生成

将语音命令识别的特征提取和卷积神经网络(CNN)部署到树莓派™中。为了生成特征提取和网络代码，你使用MATLAB编码器，MATLAB树莓派硬件支持包，ARM®计算库。金宝app在本例中，生成的代码是Raspberry Pi上的可执行代码，由MATLAB脚本调用，该脚本显示预测的语音命令以及信号和听觉谱图。MATLAB脚本和Raspberry Pi上的可执行文件之间的交互使用用户数据报协议(UDP)处理。有关音频预处理和网络训练的详细信息，请参见使用深度学习的语音命令识别。

打开生活的脚本