机器学习和深度学习音频

数据集管理、标注和扩充;用于音频、语音和声学应用的分割和特征提取

Audio Toolbox™提供用于开发机器和深度学习解决方案的功能，包括音频，语音和声学应用程序，包括扬声器识别，语音命令识别，声学场景识别等。金宝搏官方网站

采用audioDatastore以并行摄取大型音频数据集和处理文件。
采用音符贴标程序通过手动和自动注释音频记录来构建音频数据集。
采用audiodataAugmenter.创建内置或自定义信号处理方法的随机管道，用于增强和合成音频数据集。
采用audioFeatureExtractor在共享中间计算的同时提取不同特征的组合。

Audio Toolbox还提供了对文本到语音和语音到文本的第三方api的访问，它包括预先训练的VGGish和YAMNet模型，以便您可以执行迁移学习，对声音进行分类，并提取特征嵌入。使用预先训练的网络需要深度学习工具箱™。

数据集管理和标签
摄取，创建和标记大数据集
特征提取
MEL谱图，MFCC，音高，光谱描述符
数据增强
增强管路，变速节距和时间，拉伸时间，控制音量和噪音
分割
检测和隔离语音和其他声音
Pretrained网络
转移学习，声音分类，功能嵌入
语音转录和合成
使用第三方API用于文本到语音和语音到文本
代码生成和GPU支持金宝app
生成可移植的C/ c++ /MEX函数，并使用gpu部署或加速处理

特色的例子

使用深度学习的言语命令识别

培训深入学习模型，可检测音频中的语音命令的存在。该示例使用语音命令数据集[1]培训卷积神经网络以识别给定的一组命令。

打开脚本

语音命令识别代码与英特尔MKL-DNN生成

部署特征提取和卷积神经网络（CNN），用于在英特尔®处理器上进行语音命令识别。要生成特征提取和网络代码，请使用MATLAB编码器和Intel Math内核库进行深度神经网络（MKL-DNN）。在此示例中，生成的代码是MATLAB可执行（MEX）函数，其由MATLAB脚本调用，该MATLAB脚本与时域信号和听觉频谱图一起显示预测的语音命令。有关音频预处理和网络培训的详细信息，请参阅使用深度学习的语音命令识别。

打开生活的脚本

树莓派语音指令识别代码的生成

部署特征提取和卷积神经网络（CNN），用于语音命令识别到Raspberry PI™。要生成特征提取和网络代码，请使用MATLAB编码器，MATLAB支持包进行RASPBERRY PI硬件和ARM®计算库。金宝app在此示例中，生成的代码是覆盆子PI上的可执行文件，其由Matlab脚本调用，该Matlab脚本与信号和听觉频谱图一起显示预测的语音命令。使用用户数据报协议（UDP）处理MATLAB脚本与raspberry pi上可执行文件之间的交互。有关音频预处理和网络培训的详细信息，请参阅使用深度学习的语音命令识别。

打开生活的脚本

使用MFCC和LSTM网络在噪声中发现的关键字

使用深度学习网络识别嘈杂演奏中的关键字。特别地，该示例使用双向长期短期存储器（BILSTM）网络和MEL频率谱系数（MFCC）。

打开生活的脚本

使用深度学习网络代谢讲话

使用深度学习网络代谢语音信号。该示例将应用于相同任务的两种类型的网络进行比较：完全连接和卷积。

打开生活的脚本

使用深度学习网络分离鸡尾酒会源分离

使用深度学习网络隔离语音信号。

打开生活的脚本

火车生成对抗网络（GAN）用于声音合成

训练并使用生成式对抗网络(GAN)来生成声音。

打开脚本

使用音高和MFCC的扬声器识别

展示了一种基于从录制的语音中提取的功能来识别人员的机器学习方法。用于训练分类器的特征是语音和MEL频率谱系数（MFCC）的浊音段的间距。这是一个封闭式扬声器标识：将被测扬声器的音频与所有可用的扬声器型号（有限组）进行比较，并返回最接近的匹配。

打开生活的脚本

使用i-vectors验证扬声器验证

说话人验证或认证的任务是确认说话人的身份是否属实。多年来，发言人验证一直是一个活跃的研究领域。早期的一个性能突破是使用高斯混合模型和通用背景模型(GMM-UBM)[1]对声学特征(通常是mfcc)。例如，请参见使用高斯混合模型的扬声器验证。GMM-UBM系统的主要困难之一涉及会话间的可变性。联合因素分析(JFA)被提议通过分别模拟说话间变异性和频道或会话变异性[2][3]来补偿这种变异性。然而，[4]发现JFA中的通道因子也包含了关于说话人的信息，并提出将通道和说话人空间合并成一个总的可变性空间。然后使用后端程序(如线性判别分析(LDA)和类内协方差归一化(WCCN))来补偿会话间的变异性，然后是一个评分，如余弦相似度评分。[5]提出用概率LDA (PLDA)代替余弦相似度评分。[11]和[12]提出了一种将i向量高斯化的方法，从而在PLDA中做高斯假设，简称G-PLDA或简化PLDA。 Further described the common While i-vectors were originally proposed for speaker verification, they have been applied to many problems, like language recognition, speaker diarization, emotion recognition, age estimation, and anti-spoofing [10]. Recently, deep learning techniques have been proposed to replace i-vectors with d-vectors or x-vectors [8] [6].

打开生活的脚本

音频工具箱文档

金宝app

尝试matlab，sim金宝appulink等产品下载188bet金宝搏

立即获得审判