特征提取

Mel谱图，MFCC，音高，谱描述符

从音频信号中提取特征，作为机器学习或深度学习系统的输入。使用单独的功能，例如melSpectrogram，mfcc，球场,spectralCentroid，或使用audioFeatureExtractor对象创建特征提取管道，以最小化冗余计算。在活动脚本中，使用提取音频功能以图形方式选择要提取的特征。

对象

`audioFeatureExtractor`	简化音频特征提取
`cepstralFeatureExtractor`	从音频片段中提取倒谱特征
`ivectorSystem`	创建矢量i系统

住编辑任务

提取音频功能

在实时编辑器中简化音频特征提取

功能

全部展开

听觉谱图

`audioDelta`	计算三角洲特征
`designAuditoryFilterBank`	设计听觉滤波器组
`melSpectrogram`	梅尔·光谱图

听觉Cepstral系数

`audioDelta`	计算三角洲特征
`cepstralCoefficients`	提取cepstral系数
`gtcc`	提取伽玛酮倒谱系数、能量对数、δ和δ - δ
`mfcc`	提取音频信号的MFCC, log energy, delta和delta

功能嵌入

`vggishFeatures`	提取VGGish特性
`openl3Features`	提取OpenL3特性

周期性和调和性

`audioDelta`	计算三角洲特征
`harmonicRatio`	谐波比率
`球场`	估计音频信号的基频
`pitchnn`	深度学习神经网络估计基音

光谱描述符

`audioDelta`	计算三角洲特征
`spectralCentroid`	音频信号和听觉谱图的谱心
`spectralCrest`	音频信号和听觉谱图的波峰
`spectralDecrease`	音频信号和听觉谱图的谱降低
`spectralEntropy`	音频信号和听觉谱图的光谱熵
`spectralFlatness`	音频信号和听觉谱图的谱平坦度
`spectralFlux`	音频信号和听觉谱图的光谱通量
`spectralKurtosis`	音频信号和听觉谱图的谱峰度
`spectralRolloffPoint`	音频信号和听觉谱图的谱滚点
`spectralSkewness`	音频信号和听觉谱图的光谱偏度
`spectralSlope`	音频信号和听觉谱图的谱斜率
`spectralSpread`	音频信号和听觉谱图的频谱扩展

域转换

`erb2hz`	从等效矩形带宽(ERB)尺度转换为赫兹
`bark2hz`	转换从树皮规模到赫兹
`mel2hz`	从梅尔刻度转换为赫兹
`hz2erb`	从赫兹转换为等效矩形带宽(ERB)尺度
`hz2bark`	从赫兹转换为巴克规模
`hz2mel`	从赫兹转换到梅尔尺度
`phon2sone`	从电话转换成电话
`sone2phon`	把“电话”换成“电话”

块

Cepstral特征提取器

从音频片段中提取倒谱特征

主题

光谱描述符

光谱描述符概述及应用。

使用深度学习学习前置重点过滤器

使用卷积深度网络学习语音识别的预强调过滤器。

特色的例子

使用x向量识别说话人

开发一个x矢量系统来进行说话人识别。

打开生活的脚本

演讲者日记使用x向量

讲话者日记是根据讲话者身份将音频信号分成若干段的过程。它在不知道说话者的情况下回答了“谁在什么时候说话”的问题，根据应用程序，也不知道说话者的数量。

打开生活的脚本

利用内存不足特征训练语音数字识别网络

使用转换后的数据存储，在内存不足的听觉谱图上训练口语数字识别网络。在本例中，您使用audioDatastore和audioFeatureExtractor从音频中提取听觉光谱图，并将它们写入磁盘。然后在训练期间使用signalDatastore访问特性。当训练特性不适合内存时，工作流是有用的。在这个工作流中，您只提取一次特征，如果您在深度学习模型设计上进行迭代，这将加快您的工作流。

打开生活的脚本

使用内存不足的音频数据训练语音数字识别网络

使用转换后的数据存储在内存不足的音频数据上训练语音数字识别网络。在本例中，您将对用于训练卷积神经网络(CNN)的音频数据应用随机音高移位。对于每个训练迭代，使用audioDataAugmenter对象增强音频数据，然后使用audioFeatureExtractor对象提取特征。本例中的工作流适用于在训练循环中使用的任何随机数据增强。当底层音频数据集或训练特性不适合内存时，该工作流也适用。

打开生活的脚本

基于深度学习的语音指令识别

训练一个深度学习模型，检测语音指令的存在。该示例使用语音命令数据集[1]训练卷积神经网络来识别给定的命令集。

打开脚本

基于深度学习的噪声中语音活动检测

在低信噪比环境下使用深度学习检测语音区域。该示例使用语音命令数据集训练双向长短期记忆(BiLSTM)网络来检测语音活动。

打开生活的脚本

基于小波散射和深度学习的语音数字识别

使用机器和深度学习技术对语音数字进行分类。在本例中，使用支持向量机(SVM)和长短期记忆(LSTM)网络使用小波时间散射进行分类。金宝app您还可以应用贝叶斯优化来确定合适的超参数，以提高LSTM网络的精度。此外，该示例说明了一种使用深度卷积神经网络(CNN)和梅尔频率谱图的方法。

打开生活的脚本

基于小波时间散射的音乐类型分类

使用小波时间散射和音频数据存储对音乐节录的类型进行分类。在小波散射中，数据通过一系列小波变换、非线性和平均来产生数据的低方差表示。然后将这些低方差表示用作分类器的输入。

打开生活的脚本

音频特征的顺序特征选择

一个典型的特征选择工作流应用于语音数字识别任务。

打开生活的脚本

基于后期融合的声场景识别

建立多模型声场景识别后期融合系统。这个例子训练卷积神经网络(CNN)使用mel谱图和集成分类器使用小波散射。该示例使用TUT数据集进行训练和评估[1]。

打开脚本

使用i-Vectors进行说话人验证

说话人验证或认证的任务是确认说话人的身份是否属实。多年来，发言人验证一直是一个活跃的研究领域。早期的一个性能突破是使用高斯混合模型和通用背景模型(GMM-UBM)[1]对声学特征(通常是mfcc)。例如，请参见使用高斯混合模型的扬声器验证。GMM-UBM系统的主要困难之一涉及会话间的可变性。联合因素分析(JFA)被提议通过分别模拟说话间变异性和频道或会话变异性[2][3]来补偿这种变异性。然而，[4]发现JFA中的通道因子也包含了关于说话人的信息，并提出将通道和说话人空间合并成一个总的可变性空间。然后使用后端程序(如线性判别分析(LDA)和类内协方差归一化(WCCN))来补偿会话间的变异性，然后是一个评分，如余弦相似度评分。[5]提出用概率LDA (PLDA)模型代替余弦相似度评分。[11]和[12]提出了一种将i向量高斯化的方法，从而在PLDA中做高斯假设，简称G-PLDA或简化PLDA。 While i-vectors were originally proposed for speaker verification, they have been applied to many problems, like language recognition, speaker diarization, emotion recognition, age estimation, and anti-spoofing [10]. Recently, deep learning techniques have been proposed to replace i-vectors with d-vectors or x-vectors [8] [6].

打开生活的脚本

使用高斯混合模型的说话人验证

说话人验证或身份验证的任务是验证一个给定的语音片段是否属于一个给定的说话人。在说话人验证系统中，存在一个所有其他说话人的未知集合，因此，话语属于验证对象的可能性与不属于验证对象的可能性进行比较。这与识别说话人的任务形成对比，在识别任务中，计算每个说话人的可能性，并对这些可能性进行比较。说话人验证和说话人识别都可以是文本依赖或文本独立的。在本例中，您使用高斯混合模型/通用背景模型(GMM-UBM)创建一个依赖文本的说话者验证系统。

打开生活的脚本