使用深度学习的音频处理

扩展深度学习工作流程与音频和语音处理应用程序

通过使用深度学习工具箱™和音频工具箱™，将深度学习应用于音频和语音处理应用。

应用程序

定义和可视化地面真相标签

功能

`audioDatastore`	用于收集音频文件的数据存储
`audioDataAugmenter`	增加音频数据
`audioFeatureExtractor`	简化音频特征提取
`vggishFeatures`	提取VGGish特性
`vggish`	VGGish神经网络
`yamnet`	YAMNet神经网络
`yamnetGraph`	YAMNet AudioSet本体图
`classifySound`	对音频信号中的声音进行分类

主题

音频应用深度学习简介(音频工具箱)

学习将深度学习应用于音频应用的常用工具和工作流程。

使用深度学习分类声音(音频工具箱)

训练、验证和测试一个简单的长短期记忆(LSTM)来分类声音。

通过预先训练的音频网络进行迁移学习(音频工具箱)

使用迁移学习来重新训练YAMNet，一个预先训练的卷积神经网络(CNN)，对一组新的音频信号进行分类。

特色的例子

基于深度学习的语音指令识别

训练一个深度学习模型，检测语音指令的存在。该示例使用语音命令数据集[1]训练卷积神经网络来识别给定的命令集。

打开脚本

用Intel MKL-DNN生成语音指令识别代码

在Intel®处理器上部署特征提取和卷积神经网络(CNN)用于语音命令识别。要生成特征提取和网络代码，您可以使用MATLAB编码器和英特尔深度神经网络数学内核库(MKL-DNN)。在本例中，生成的代码是一个MATLAB可执行(MEX)函数，由一个MATLAB脚本调用，该脚本显示预测的语音命令以及时域信号和听觉谱图。有关音频预处理和网络训练的详细信息，请参见使用深度学习的语音命令识别。

打开生活的脚本

树莓派语音指令识别代码的生成

采用特征提取和卷积神经网络(CNN)对Raspberry Pi™进行语音命令识别。为了生成特征提取和网络代码，您使用MATLAB Coder, MATLAB支持包树莓派硬件，和ARM®计算库。金宝app在本例中，生成的代码是Raspberry Pi上的可执行文件，它由一个MATLAB脚本调用，该脚本显示预测的语音命令以及信号和听觉声谱图。MATLAB脚本和树莓派上的可执行文件之间的交互是使用用户数据报协议(UDP)处理的。有关音频预处理和网络训练的详细信息，请参见使用深度学习的语音命令识别。

打开生活的脚本