机器学习和深度学习音频

数据集管理，标签和增强;音频，语音和声学应用的分段和特征提取

Audio Toolbox™提供用于开发机器和深度学习解决方案的功能，包括音频，语音和声学应用程序，包括扬声器识别，语音命令识别，声学场景识别等。金宝搏官方网站

采用audiodatastore.以并行摄取大型音频数据集和处理文件。
采用音符贴标程序通过手动和自动注释音频录制来构建音频数据集。
采用audiodataAugmenter.创建内置或自定义信号处理方法的随机管道，用于增强和合成音频数据集。
采用audiofeatureextractor.在共享中间计算的同时提取不同特征的组合。

音频工具箱还提供对第三方API的访问，以获取文本到语音和语音到文本，它包括预先训练的VAGGASH和YamNet模型，以便您可以执行传输学习，分类声音和提取功能嵌入功能。使用预磨料网络需要深度学习工具箱™。

数据集管理和标签
摄取，创建和标记大数据集
特征提取
MEL谱图，MFCC，音高，光谱描述符
数据增强
增强管道，移位间距和时间，伸展时间，控制量和噪声
分割
检测和隔离语音和其他声音
磨粉网络
转移学习，声音分类，功能嵌入
语音转录和合成
使用第三方API用于文本到语音和语音到文本
代码生成和GPU支持金宝app
生成便携式C / C ++ / MEX功能并使用GPU部署或加速处理

特色例子

使用深度学习的言语命令识别

培训深入学习模型，可检测音频中的语音命令的存在。该示例使用语音命令数据集[1]培训卷积神经网络以识别给定的一组命令。

打开脚本

语音命令识别代码与英特尔MKL-DNN生成

部署特征提取和卷积神经网络（CNN），用于在英特尔®处理器上进行语音命令识别。要生成特征提取和网络代码，请使用MATLAB编码器和Intel Math内核库进行深度神经网络（MKL-DNN）。在此示例中，生成的代码是MATLAB可执行（MEX）函数，其由MATLAB脚本调用，该MATLAB脚本与时域信号和听觉频谱图一起显示预测的语音命令。有关音频预处理和网络培训的详细信息，请参阅使用深度学习的语音命令识别。

打开直播脚本

raspberry pi上的语音命令识别代码生成

部署特征提取和卷积神经网络（CNN），用于语音命令识别到Raspberry PI™。要生成特征提取和网络代码，请使用MATLAB编码器，MATLAB支持包进行RASPBERRY PI硬件和ARM®计算库。金宝app在此示例中，生成的代码是覆盆子PI上的可执行文件，其由Matlab脚本调用，该Matlab脚本与信号和听觉频谱图一起显示预测的语音命令。使用用户数据报协议（UDP）处理MATLAB脚本与raspberry pi上可执行文件之间的交互。有关音频预处理和网络培训的详细信息，请参阅使用深度学习的语音命令识别。

打开直播脚本

使用MFCC和LSTM网络在噪声中发现的关键字

使用深度学习网络识别嘈杂演奏中的关键字。特别地，该示例使用双向长期短期存储器（BILSTM）网络和MEL频率谱系数（MFCC）。

打开直播脚本

使用深度学习网络代谢讲话

使用深度学习网络代谢语音信号。该示例将应用于相同任务的两种类型的网络进行比较：完全连接和卷积。

打开直播脚本

使用深度学习网络分离鸡尾酒会源分离

使用深度学习网络隔离语音信号。

打开直播脚本

火车生成对抗网络（GAN）用于声音合成

火车并使用生成的对抗性网络（GaN）来产生声音。

打开脚本

使用音高和MFCC的扬声器识别

展示了一种基于从录制的语音中提取的功能来识别人员的机器学习方法。用于训练分类器的特征是语音和MEL频率谱系数（MFCC）的浊音段的间距。这是一个封闭式扬声器标识：将被测扬声器的音频与所有可用的扬声器型号（有限组）进行比较，并返回最接近的匹配。

打开直播脚本

使用i-vectors验证扬声器验证

发言人验证或身份验证是确认发言者身份的任务是他们声称的人。扬声器验证多年来一直是活跃的研究区。早期性能突破是在声学特征（通常MFCC）上使用高斯混合模型和通用背景模型（GMM-UBM）[1]。例如，请参阅使用高斯混合模型的扬声器验证。GMM-UBM系统的主要困难之一涉及缺口变异性。建议通过单独建模扬声器变异性和通道或会话变异性来补偿这种可变性的联合因子分析（JFA）[2] [3]。然而，[4]发现JFA中的频道因子还包含有关扬声器的信息，并提出将通道和扬声器空间组合成总可变空间。然后通过使用后端程序（例如线性判别分析（LDA）和级联协方差标准化（WCCN），然后进行评分，如余弦相似度得分等中的intersession可变性。[5]提出用概率LDA（PLDA）模型替换余弦相似度评分。[11]和[12]提出了一种用于高斯高斯高斯的方法，因此在PLDA中制造高斯假设，称为G-PLDA或简化的PLDA。 While i-vectors were originally proposed for speaker verification, they have been applied to many problems, like language recognition, speaker diarization, emotion recognition, age estimation, and anti-spoofing [10]. Recently, deep learning techniques have been proposed to replace i-vectors with d-vectors or x-vectors [8] [6].

打开直播脚本

音频工具箱文档

金宝app

尝试matlab，sim金宝appulink等产品下载188bet金宝搏

立即获得审判