使用深度学习的音频处理

扩展深度学习工作流程与音频和语音处理应用程序

通过使用Deep Learning Toolbox™与Audio Toolbox™一起使用深度学习到音频和语音处理应用程序。对于信号处理应用程序，请参阅使用深度学习的信号处理．对于无线通信的应用，请参阅使用深度学习的无线通信．

应用程序

定义和可视化地面真理标签

功能

`ivectorSystem`	创建矢量i系统
`绉`	绉神经网络
`crepePreprocess`	CREPE深度学习网络的音频预处理
`repepostprocess.`	CREPE深度学习网络的后处理输出
`球场`	深度学习神经网络估计基音
`openl3`	OpenL3神经网络
`openl3Preprocess`	预处理音频用于OpenL3特征提取
`openl3Features`	提取OpenL3特性
`audioDatastore`	用于收集音频文件的数据存储
`audioDataAugmenter`	增强音频数据
`audioFeatureExtractor`	简化音频特征提取
`vggishPreprocess`	预处理音频用于VGGish特征提取
`vggishFeatures`	提取VGGish特性
`vggish`	VGGish神经网络
`yamnet.`	YAMNet神经网络
`yamnetPreprocess`	用于yamnet分类的预处理音频
`yamnetGraph`	YAMNet AudioSet本体图
`classifySound`	对音频信号中的声音进行分类

主题

音频应用深度学习简介(音频工具箱)

学习将深度学习应用于音频应用的常用工具和工作流程。

使用深度学习分类声音(音频工具箱)

训练、验证和测试一个简单的长短期记忆(LSTM)来分类声音。

通过预先训练的音频网络进行迁移学习(音频工具箱)

使用转移学习培训yamnet，预先覆盖的卷积神经网络（CNN），用于对新的一组音频信号进行分类。

使用自定义自信网络层和深度学习识别说话人(音频工具箱)

使用自定义深度学习层进行语音识别，该层实现了梅尔尺度滤波器组。

使用深度学习网络消除语音干扰(音频工具箱)

训练一个深度学习模型，消除语音中的混响。

Simulink中的语音命令识别金宝app(音频工具箱)

使用Simulink检测音频中语音命令的存在金宝app^®模型。

特色的例子

使用x向量识别说话人

说话者识别可以回答“谁在说话”这个问题。说话人识别通常分为两个任务:说话人识别和说话人验证。在说话人识别中，说话人是通过将他们的讲话与一组封闭的模板进行比较来识别的。在说话人验证中，说话人是通过比较说话人属于某个特定说话人的可能性与预定的阈值来识别的。传统的机器学习方法在理想条件下可以很好地完成这些任务。有关使用传统机器学习方法识别说话人的示例，请参见使用音高和MFCC的说话人识别和使用i-Vectors的说话人验证。Audio Toolbox™提供了ivectorSystem，它封装了训练i矢量系统的能力，注册扬声器或其他音频标签，评估系统的决策阈值，并识别或验证扬声器或其他音频标签。

演讲者日记使用x向量

讲话者日记是根据讲话者身份将音频信号分成若干段的过程。它在不知道说话者的情况下回答了“谁在什么时候说话”的问题，根据应用程序，也不知道说话者的数量。

使用内存不足的音频数据训练语音数字识别网络

使用变换的数据存储列在内存失控的音频数据上进行口头识别网络。在此示例中，您将随机间距移位应用于用于训练卷积神经网络（CNN）的音频数据。对于每个训练迭代，使用audiodataAugmenter对象增强音频数据，然后使用audiofeatureextractor对象提取功能。此示例中的工作流程适用于训练循环中使用的任何随机数据增强。当底层音频数据集或训练功能不适合内存时，工作流程也适用。

利用内存不足特征训练语音数字识别网络

使用转换后的数据存储，在内存不足的听觉谱图上训练口语数字识别网络。在本例中，您使用audioDatastore和audioFeatureExtractor从音频中提取听觉光谱图，并将它们写入磁盘。然后在训练期间使用signalDatastore访问特性。当训练特性不适合内存时，工作流是有用的。在这个工作流中，您只提取一次特征，如果您在深度学习模型设计上进行迭代，这将加快您的工作流。

英特尔MKL-DNN噪声码生成中的关键字识别

演示使用双向长短期记忆(BiLSTM)网络和mel频率倒频谱系数(MFCC)特征提取来识别关键字的代码生成。带深度学习支持的MATLAB®Coder™能够生成独立的可执行文件(金宝app.exe)。MATLAB®(.mlx)文件与生成的可执行文件之间的通信通过异步用户数据报协议(UDP)进行。输入的语音信号是用时间显示器显示的。一个掩码显示为一个围绕关键字YES的被标记实例的蓝色矩形。有关MFCC特征提取和深度学习网络训练的更多细节，请访问MFCC和LSTM网络噪声中的关键字识别。

树莓Pi噪声码生成中的关键字识别

演示了在Raspberry Pi™上使用双向长短期记忆(BiLSTM)网络和mel频率倒谱系数(MFCC)特征提取来识别关键字的代码生成。MATLAB®Coder™与深度学习支持，使生成一个独立的可执行文件金宝app(.elf)树莓派。MATLAB®(.mlx)文件与生成的可执行文件之间的通信通过异步用户数据报协议(UDP)进行。输入的语音信号是用时间显示器显示的。一个掩码显示为一个围绕关键字YES的被标记实例的蓝色矩形。有关MFCC特征提取和深度学习网络训练的更多细节，请访问MFCC和LSTM网络噪声中的关键字识别。

基于深度学习的语音指令识别

训练一个深度学习模型，检测语音指令的存在。该示例使用语音命令数据集[1]训练卷积神经网络来识别给定的命令集。

打开脚本

用Intel MKL-DNN生成语音指令识别代码

部署特征提取和卷积神经网络（CNN），用于在英特尔®处理器上进行语音命令识别。要生成特征提取和网络代码，请使用MATLAB编码器和Intel Math内核库进行深度神经网络（MKL-DNN）。在此示例中，生成的代码是MATLAB可执行（MEX）函数，其由MATLAB脚本调用，该MATLAB脚本与时域信号和听觉频谱图一起显示预测的语音命令。有关音频预处理和网络培训的详细信息，请参阅使用深度学习的语音命令识别。

打开生活的脚本

树莓派语音指令识别代码的生成

部署特征提取和卷积神经网络（CNN），用于语音命令识别到Raspberry PI™。要生成特征提取和网络代码，请使用MATLAB编码器，MATLAB支持包进行RASPBERRY PI硬件和ARM®计算库。金宝app在此示例中，生成的代码是覆盆子PI上的可执行文件，其由Matlab脚本调用，该Matlab脚本与信号和听觉频谱图一起显示预测的语音命令。使用用户数据报协议（UDP）处理MATLAB脚本与raspberry pi上可执行文件之间的交互。有关音频预处理和网络培训的详细信息，请参阅使用深度学习的语音命令识别。

打开生活的脚本