特征提取

梅尔谱图，MFCC，音高，谱描述符

从音频信号中提取特征，作为机器学习或深度学习系统的输入。使用单独的函数，例如melSpectrogram，mfcc，球场,spectralCentroid，或使用audioFeatureExtractor对象来创建最小化冗余计算的特征提取管道。在实时脚本中，使用提取音频功能图形化地选择要提取的特征。

对象

`audioFeatureExtractor`	简化音频特征提取
`cepstralFeatureExtractor`	从音频片段中提取倒谱特征
`ivectorSystem`	创建矢量i系统

住编辑任务

提取音频功能

简化实时编辑器中的音频特征提取

功能

全部展开

听觉谱图

`audioDelta`	计算三角洲特征
`designAuditoryFilterBank`	设计听觉滤波器组
`melSpectrogram`	梅尔·光谱图

听觉Cepstral系数

`audioDelta`	计算三角洲特征
`cepstralCoefficients`	提取cepstral系数
`gtcc`	提取伽玛酮倒谱系数，对数能量，δ和δ - δ
`mfcc`	提取音频信号的MFCC、log能量、delta和delta-delta

功能嵌入

`vggishFeatures`	提取VGGish特性
`openl3Features`	提取OpenL3特性

周期性和调和性

`audioDelta`	计算三角洲特征
`harmonicRatio`	谐波比率
`球场`	估计音频信号的基频
`pitchnn`	用深度学习神经网络估计音高

光谱描述符

`audioDelta`	计算三角洲特征
`spectralCentroid`	音频信号和听觉谱图的谱质心
`spectralCrest`	音频信号和听觉谱图的谱峰
`spectralDecrease`	音频信号和听觉谱图的谱降低
`spectralEntropy`	音频信号和听觉谱图的谱熵
`spectralFlatness`	音频信号和听觉谱图的谱平坦度
`spectralFlux`	音频信号和听觉谱图的谱通量
`spectralKurtosis`	音频信号和听觉谱图的谱峰度
`spectralRolloffPoint`	音频信号和听觉谱图的谱滚落点
`spectralSkewness`	音频信号和听觉谱图的谱偏度
`spectralSlope`	音频信号和听觉谱图的谱斜率
`spectralSpread`	音频信号和听觉谱图的谱扩频

域转换

`erb2hz`	从等效矩形带宽(ERB)尺度转换为赫兹
`bark2hz`	从树皮刻度转换为赫兹
`mel2hz`	从梅尔尺度转换为赫兹
`hz2erb`	从赫兹转换为等效矩形带宽(ERB)尺度
`hz2bark`	从赫兹转换为树皮尺度
`hz2mel`	从赫兹转换为梅尔尺度
`phon2sone`	把phon转换成sone
`sone2phon`	把sone转换成phon

块

Cepstral特征提取器

从音频片段中提取倒谱特征

主题

光谱描述符

光谱描述符概述及应用。

特色的例子

使用x向量的说话人识别

说话人识别回答了“谁在说话?”说话人识别通常分为两个任务:说话人识别和说话人验证。在说话人识别中，说话人通过将其语音与一组封闭的模板进行比较来识别。在说话人验证中，通过比较说话人属于特定说话人的可能性和预先确定的阈值来识别说话人。传统的机器学习方法在理想条件下可以很好地完成这些任务。关于使用传统机器学习方法的说话人识别的例子，请参见使用音高和MFCC的说话人识别和使用i- vector的说话人验证。Audio Toolbox™提供了ivectorSystem，它封装了训练i向量系统、登记扬声器或其他音频标签、评估系统的决策阈值以及识别或验证扬声器或其他音频标签的能力。

打开生活的脚本

使用x向量的扬声器diization

说话人划分是根据说话人身份将音频信号划分为多个片段的过程。它回答了“谁在什么时候说话”的问题，而不事先知道说话人，而且根据应用程序的不同，不事先知道说话人的数量。

打开生活的脚本

利用内存不足特性训练语音数字识别网络

使用转换后的数据存储在内存不足的听觉谱图上训练语音数字识别网络。在本例中，您使用audioDatastore和audioFeatureExtractor从音频中提取听觉谱图，并将它们写入磁盘。然后在训练期间使用signalDatastore访问特性。当训练特性不适合内存时，工作流是有用的。在这个工作流程中，您只提取一次特征，如果您正在迭代深度学习模型设计，这将加快您的工作流程。

打开生活的脚本

利用内存外音频数据训练语音数字识别网络

使用转换后的数据存储在内存不足的音频数据上训练语音数字识别网络。在本例中，您将对用于训练卷积神经网络(CNN)的音频数据应用一个随机的音调偏移。对于每个训练迭代，使用audioDataAugmenter对象增强音频数据，然后使用audioFeatureExtractor对象提取特征。本例中的工作流适用于训练循环中使用的任何随机数据增强。当底层音频数据集或训练特性不适合内存时，工作流也适用。

打开生活的脚本

基于深度学习的语音指令识别

训练一个深度学习模型来检测音频中语音命令的存在。该示例使用语音命令数据集[1]来训练卷积神经网络来识别给定的命令集。

打开脚本

基于深度学习的噪声语音活动检测

利用深度学习在低信噪比环境中检测语音区域。该示例使用语音命令数据集训练双向长短期记忆(BiLSTM)网络来检测语音活动。

打开生活的脚本

使用GRU网络进行性别分类

使用深度学习对说话者的性别进行分类。该示例使用了门控循环单元(GRU)网络和Gammatone倒谱系数(gtcc)、基音、谐波比和几个谱形状描述符。

打开生活的脚本

基于小波散射和深度学习的语音数字识别

使用机器和深度学习技术对语音数字进行分类。在本例中，使用小波时间散射和支持向量机(SVM)和长短期记忆(LSTM)网络进行分类。金宝app您还应用贝叶斯优化来确定合适的超参数，以提高LSTM网络的准确性。此外，该示例说明了使用深度卷积神经网络(CNN)和mel频率谱图的方法。

打开生活的脚本

基于小波时间散射的音乐类型分类

利用小波时间散射和音频数据存储对音乐节选的类型进行分类。在小波散射中，数据通过一系列小波变换、非线性和平均来传播，以产生数据的低方差表示。然后将这些低方差表示作为分类器的输入。

打开生活的脚本

音频特征的顺序特征选择

一种典型的语音数字识别特征选择工作流程。

打开生活的脚本

基于后期融合的声学场景识别

建立一个多模型后期融合系统用于声学场景识别。该示例使用mel谱图训练卷积神经网络(CNN)和使用小波散射训练集成分类器。该示例使用TUT数据集进行训练和评估[1]。

打开脚本

使用i- vector验证说话人

说话人验证，或身份验证，是确认说话人的身份是他们声称的那个人的任务。说话人验证多年来一直是一个活跃的研究领域。早期的性能突破是在声学特征(通常是mfcc)上使用高斯混合模型和通用背景模型(GMM-UBM)[1]。例如，请参见使用高斯混合模型验证说话人。GMM-UBM系统的主要困难之一是会话间的变化。联合因子分析(JFA)通过分别建模说话人间变异和通道或会话变异[2][3]来补偿这种变异。然而，[4]发现JFA中的信道因子也包含扬声器的信息，并提出将信道和扬声器空间组合成一个总变率空间。然后使用后端程序(如线性判别分析(LDA)和类内协方差归一化(WCCN))来补偿会话间的变异，然后进行评分，如余弦相似度评分。[5]提出用概率LDA (PLDA)模型代替余弦相似度评分。[11]和[12]提出了一种方法来高斯化i向量，因此在PLDA中进行高斯假设，称为G-PLDA或简化PLDA。 While i-vectors were originally proposed for speaker verification, they have been applied to many problems, like language recognition, speaker diarization, emotion recognition, age estimation, and anti-spoofing [10]. Recently, deep learning techniques have been proposed to replace i-vectors with d-vectors or x-vectors [8] [6].

打开生活的脚本

基于高斯混合模型的说话人验证

说话人验证，或认证，是验证给定的语音段属于给定的说话人的任务。在说话人验证系统中，所有其他说话人的集合都是未知的，因此，一个话语属于验证目标的可能性与它不属于验证目标的可能性进行比较。这与说话人识别任务相反，在识别任务中，每个说话人的可能性都被计算出来，然后这些可能性被比较。说话人验证和说话人识别可以依赖于文本，也可以独立于文本。在本例中，您使用高斯混合模型/通用背景模型(GMM-UBM)创建了一个依赖文本的说话者验证系统。

打开生活的脚本