使用深度学习的音频处理

通过音频和语音处理应用程序扩展深度学习工作流

通过使用深度学习工具箱™和音频工具箱™，将深度学习应用于音频和语音处理应用。有关信号处理应用，请参阅利用深度学习进行信号处理．有关无线通讯的应用，请参阅使用深度学习的无线通信．

应用程序

定义和可视化地面真相标签

功能

`驱动系统`	创建i向量系统
`绉纱`	绉纱神经网络
`绉纱再加工`	绉纱深度学习网络的音频预处理
`crepePostprocess`	绉纱深度学习网络的后处理输出
`pitchnn`	基于深度学习神经网络的基音估计
`openl3`	OpenL3神经网络
`OpenL3预处理`	用于OpenL3特征提取的音频预处理
`openl3Features`	提取OpenL3功能
`音频数据存储`	用于收集音频文件的数据存储
`音频数据增强器`	增加音频数据
`音频特征提取器`	流线型音频特征提取
`VGG预处理`	用于VGGish特征提取的音频预处理
`VGISH特性`	提取VGGish特征
`VGISH`	VGISH神经网络
`yamnet`	YAMNet神经网络
`YAMNET预处理`	预处理音频，用于YAMNet分类
`阴阳图`	YAMNet音频集本体图
`分类声音`	音频信号中的声音分类

话题

音频应用的深度学习简介（音频工具箱）

了解将深度学习应用于音频应用程序的常用工具和工作流。

使用深度学习对声音进行分类（音频工具箱）

训练、验证和测试一个简单的长-短期记忆（LSTM）来分类声音。

基于预训练音频网络的迁移学习（音频工具箱）

使用迁移学习来重新训练YAMNet，一个预先训练的卷积神经网络(CNN)，对一组新的音频信号进行分类。

基于自定义SincNet层和深度学习的说话人识别（音频工具箱）

使用实现mel比例滤波器组的自定义深度学习层执行语音识别。

使用深度学习网络消除语音冗余（音频工具箱）

训练一个深度学习模型，消除语音中的混响。

Simulink中的语音命令识别金宝app（音频工具箱）

使用Simulink检测音频中是否存在语音命令金宝app^®模型

特色实例

基于x向量的说话人识别

说话人识别回答了“谁在讲话？”。说话人识别通常分为两个任务：说话人识别和说话人确认。在说话人识别中，通过将说话人的语音与一组封闭的模板进行比较来识别说话人。在说话人验证中，通过将语音属于特定说话人的可能性与预定阈值进行比较来识别说话人。传统的机器学习方法在理想条件下可以很好地完成这些任务。有关使用传统机器学习方法的说话人识别示例，请参见使用基音和MFCC的说话人识别和使用i向量的说话人验证。音频工具箱™ 提供iVector系统，它封装了培训i-vector系统、注册扬声器或其他音频标签、评估系统的决策阈值以及识别或验证扬声器或其他音频标签的功能。

基于x向量的说话人二值化

说话人二值化是根据说话人身份将音频信号划分为若干段的过程。它回答了“谁在何时发言”的问题，但事先不知道发言者的情况，并且根据申请情况，事先不知道发言者的人数。

使用内存不足音频数据的列车语音数字识别网络

使用转换后的数据存储对内存不足的音频数据进行语音数字识别网络培训。在本例中，将对用于训练卷积神经网络（CNN）的音频数据应用随机基音偏移。对于每个训练迭代，使用audioDataAugmenter对象增强音频数据，然后使用audioFeatureExtractor对象提取特征。本例中的工作流适用于训练循环中使用的任何随机数据增强。当底层音频数据集或培训功能不适合内存时，该工作流也适用。

利用内存不足特征的列车语音数字识别网络

使用转换后的数据存储在内存不足的听觉频谱图上训练语音数字识别网络。在本例中，您使用audioDatastore和audioFeatureExtractor从音频中提取听觉频谱图，并将其写入磁盘。然后在训练期间使用signalDatastore访问这些功能。当培训功能不适合内存。在此工作流中，您只提取一次功能，如果您正在迭代深度学习模型设计，这将加快您的工作流。

使用“英特尔MKL-DNN”生成噪声代码时的关键字识别

演示如何使用双向长短时记忆（BiLSTM）网络和mel频率倒谱系数（MFCC）特征提取生成关键字识别代码。MATLAB®编码器™ 借助深度学习支持，可以生成独立的可执行（.exe）文件。MATLAB®（.mlx）文件和生成的可执行文件之间的通信通过异步用户数据报协议（UDP）进行。输入的语音信号使用时间范围显示。掩码显示为一个蓝色矩形，围绕着关键字YES的斑点实例。有关MFCC特征提取和深度学习网络训练的更多详细信息，请金宝app访问使用MFCC和LSTM网络的噪声中的关键词识别。

基于Raspberry-Pi的噪声码生成中的关键词识别

演示使用双向长短时记忆（BiLSTM）网络和Raspberry Pi上的mel频率倒谱系数（MFCC）特征提取生成关键字识别代码™. MATLAB®编码器™ 借助深度学习支持，可以在Raspberry Pi上生成独立的可执行（.elf）文件。MATLAB®（.mlx）文件与生成的可执行文件之间的通信通过异步用户数据报协议（UDP）进行。传入语音信号使用时间范围显示。掩码显示为蓝色矩形，包围关键字的斑点实例。是。有关MFCC特征提取和深度学习网络训练的更多金宝app详细信息，请访问使用MFCC和LSTM网络的噪声中的关键字斑点。

基于深度学习的语音命令识别

训练深度学习模型，检测音频中是否存在语音命令。该示例使用语音命令数据集[1]来训练卷积神经网络以识别给定的命令集。

开放脚本

使用“英特尔MKL-DNN”生成语音命令识别代码

在Intel®处理器上部署特征提取和卷积神经网络(CNN)用于语音命令识别。要生成特征提取和网络代码，您可以使用MATLAB编码器和英特尔深度神经网络数学内核库(MKL-DNN)。在本例中，生成的代码是一个MATLAB可执行(MEX)函数，由一个MATLAB脚本调用，该脚本显示预测的语音命令以及时域信号和听觉谱图。有关音频预处理和网络训练的详细信息，请参见使用深度学习的语音命令识别。

打开实时脚本

基于Raspberry-Pi的语音命令识别代码生成

采用特征提取和卷积神经网络(CNN)对Raspberry Pi™进行语音命令识别。为了生成特征提取和网络代码，您使用MATLAB Coder, MATLAB支持包树莓派硬件，和ARM®计算库。金宝app在本例中，生成的代码是Raspberry Pi上的可执行文件，它由一个MATLAB脚本调用，该脚本显示预测的语音命令以及信号和听觉声谱图。MATLAB脚本和树莓派上的可执行文件之间的交互是使用用户数据报协议(UDP)处理的。有关音频预处理和网络训练的详细信息，请参见使用深度学习的语音命令识别。

打开实时脚本