机器学习和音频深度学习

数据集管理，标记和扩增;分割和音频，语音特征提取和声学应用

Audio Toolbox™提供了使用机器学习和深度学习来开发音频、语音和声学应用程序的功能。使用audioDatastore管理和加载大型数据集。使用音频贴标签机以互动的方式定义和形象化地面真相。使用audioDataAugmenter使用特定于音频的增强技术来扩大数据集。使用audioFeatureExtractor创建高效和模块化的特征提取管道。

应用程序

音频贴标签机

定义并可视化基本事实标签

住编辑任务

提取音频功能

流线音频特征提取在现场编辑器

功能

全部展开

音频I / O

audioDatastore 用于收集音频文件的数据存储

Cepstral分析

`MFCC`	提取MFCC，数能量，DELTA和delta-Δ音频信号
`gtcc`	提取伽玛酮倒谱系数，对数能量，德尔塔和德尔塔
`cepstralFeatureExtractor`	从音频段中提取倒谱特征

数据增加

`audioDataAugmenter`	增加音频数据
`audioTimeScaler`	对流式音频应用时间缩放
`shiftPitch`	移音频程度
`stretchAudio`	Time-stretch音频

域转换

`erb2hz`	将等效矩形带宽(ERB)转换为赫兹
`bark2hz`	从树皮鳞片转换成赫兹
`mel2hz`	从梅尔刻度转换到赫兹
`hz2erb`	转换从赫兹到等效矩形带宽(ERB)规模
`hz2bark`	转换从赫兹树皮规模
`hz2mel`	转换从赫兹到梅尔的规模
`phon2sone`	从响度单位到宋转换
`sone2phon`	从sone转换为phon

滤波器的设计

designAuditoryFilterBank 设计听觉滤波器组

响度

`integratedLoudness`	测量综合响度和响度范围
`loudnessMeter`	符合标准的响度测量

周期性和谐

`harmonicRatio`	谐波比率
`球场`	估计音频信号的基频

分割

`detectSpeech`	检测语音的边界在音频信号
`voiceActivityDetector`	检测音频信号的语音存在

光谱描述符

`audioFeatureExtractor`	简化音频特征提取
`spectralCentroid`	用于音频信号和听觉谱图的谱心
`spectralCrest`	光谱波峰的音频信号和听觉谱图
`spectralDecrease`	音频信号和听觉谱图的谱下降
`spectralEntropy`	用于音频信号和听觉谱图的谱熵
`spectralFlatness`	用于音频信号和听觉光谱图的光谱平直度
`spectralFlux`	用于音频信号和听觉谱图的光谱通量
`spectralKurtosis`	用于音频信号和听觉谱图的光谱峰度
`spectralRolloffPoint`	频谱滚降点，音频信号和听觉谱图
`spectralSkewness`	音频信号和听觉谱图的光谱偏度
`spectralSlope`	音频信号和听觉频谱频谱斜率
`spectralSpread`	用于音频信号和听觉谱图的谱扩展

变换和窗口

`melSpectrogram`	梅尔·光谱图
`kbdwin`	凯泽 - 贝塞尔派生窗
`多层螺旋ct`	修正的离散余弦变换
`IMDCT`	反修改的离散余弦变换

块

声音活动检测器	检测音频信号的语音存在
Cepstral特征提取器	从音频段中提取倒谱特征
响度计	符合标准的响度测量

主题

使用音频标签机标记音频

交互式地定义和可视化音频数据集的基本事实标签。

“语音转录

在MATLAB中进行语音到文本的转录^®使用第三方基于云的API。

语音转换

使用第三方基于云的api在MATLAB中执行文本到语音的转换。

光谱描述符

光谱描述符的概述和应用。

特色的例子

使用深度学习的语音命令识别

训练一个深度学习模型来检测语音命令的存在。本例使用语音命令数据集[1]训练卷积神经网络识别给定的一组命令。

打开脚本

扬声器识别使用音高和MFCC

演示了一种基于从记录语音中提取的特征来识别人的机器学习方法。用于训练分类器的特征是语音中浊音段的音高和mel-frequency cepstrum coefficients (MFCC)。这是一个封闭集的扬声器标识:将被测试扬声器的音频与所有可用的扬声器模型(一个有限集)进行比较，并返回最接近的匹配。

开立真实脚本

鸡尾酒会使用深度学习网络进行源分离

使用深度学习网络分离语音信号。

开立真实脚本

利用MFCC和LSTM网络对噪声进行关键字检测

标识使用深学习网络在有噪声的语音关键字。特别地，该示例使用了双向长短期存储器（BiLSTM）网络和梅尔频率倒谱系数（MFCC）。

开立真实脚本

使用深度学习网络去噪语音

利用深度学习网络对语音信号进行降噪处理。该示例比较了应用于同一任务的两种类型的网络:全连接网络和卷积网络。

开立真实脚本

训练生成式对抗网络(GAN)进行声音合成

火车和使用生成对抗网络（GAN）来产生声音。

打开脚本

噪声中语音活动的深度学习检测

使用深度学习检测低信噪比环境中的语音区域。该示例使用语音命令数据集训练一个双向长短时记忆(BiLSTM)网络来检测语音活动。

开立真实脚本

使用LSTM网络对性别进行分类

使用深度学习对演讲者的性别进行分类。该示例使用了双向长短时记忆(BiLSTM)网络和伽玛顿倒谱系数(gtcc)、基音、谐波比和几个频谱形状描述符。

开立真实脚本

基于小波分解和深度学习的语音数字识别

分类口语同时使用机器和深入学习技术的数字。在示例中，您使用小波时散射用支持向量机（SVM），并具有长的短期记忆（LSTM）网络执行分类。金宝app您也适用贝叶斯优化来确定合适的超参数，以提高网络LSTM的准确性。此外，该示例示出了使用深卷积神经网络（CNN）和梅尔频率谱图的方法。

开立真实脚本

基于小波时间散射的音乐类型分类

利用小波时间散射和音频数据存储对音乐片段的体裁进行分类。在小波散射中，数据通过一系列小波变换、非线性和平均来传播，从而产生数据的低方差表示。然后将这些低方差表示用作分类器的输入。

打开脚本

音频特性的顺序特性选择

为特征选择典型的工作流程应用到语音数字识别的任务。

开立真实脚本

语音情感识别

说明了一个简单的语音情感识别(SER)系统使用的BiLSTM网络。首先下载数据集，然后在各个文件上测试经过训练的网络。该网络是在一个小型德语数据库[1]上训练的。

开立真实脚本

利用后期融合进行声场景识别

创建声场景识别多模式后融合系统。该示例使用训练梅尔频谱，并使用小波散射综合识别卷积神经网络（CNN）。该示例使用用于训练和评估[1] TUT数据集。

打开脚本

说话人验证使用高斯混合模型

说话人验证(或身份验证)的任务是验证给定的语音片段是否属于给定的说话人。在说话人验证系统中，存在一个未知的所有其他说话人的集合，因此将一个话语属于验证目标的可能性与不属于验证目标的可能性进行比较。这与说话者识别任务形成对比，后者计算每个说话者的可能性，并比较这些可能性。说话人验证和说话人标识可以依赖于文本，也可以独立于文本。在本例中，您使用高斯混合模型/通用背景模型(GMM-UBM)创建了一个文本相关的说话人验证系统。

开立真实脚本

说话人验证使用i- vector

说话人验证(或身份验证)的任务是确认说话人的身份是他们声称要成为的人。多年来，说话人验证一直是一个活跃的研究领域。早期的性能突破是使用高斯混合模型和通用背景模型(GMM-UBM)[1]对声学特征(通常是mfcc)。有关示例，请参见使用高斯混合模型的说话人验证。GMM-UBM系统的主要难点之一是会话间的可变性。联合因素分析(JFA)被提议通过单独建模说话人之间的差异性和通道或会话的差异性[2][3]来补偿这种差异性。然而，[4]发现JFA中的信道因子也包含了关于音箱的信息，并提出将信道和音箱空间合并成一个全变率空间。然后，使用后端过程(如线性判别分析(LDA)和类内协方差标准化(WCCN))对会话间的可变性进行补偿，然后进行评分，如余弦相似度评分。[5]提出用概率LDA (PLDA)代替余弦相似度评分。虽然i-vector最初被提出用于说话人验证，但它们已经被应用于许多问题，如语言识别、说话人二值化、情感识别、年龄估计和反欺骗干扰[10]。 Recently, deep learning techniques have been proposed to replace i-vectors with d-vectors or x-vectors [8] [6].

开立真实脚本