特征提取

Mel谱图，MFCC，音高，谱描述符

从音频信号提取功能，用作机器学习或深度学习系统的输入。使用单个功能，例如MELSPECTROGGROP.那mfcc那球场,Spectralcentroid.，或使用audioFeatureExtractor对象创建一个功能提取管道，最大限度地减少冗余计算。在实时脚本中，使用提取音频功能以图形方式选择要提取的特征。

对象

`audioFeatureExtractor`	简化音频特征提取
`CepstralFeatureextractor.`	从音频片段中提取倒谱特征
`vietorsystem.`	创建I矢量系统

实时编辑任务

提取音频功能

Streamline在Live编辑器中的音频功能提取

职能

全部展开

听觉谱图

`audioDelta`	计算三角洲特征
`DesignAuditionFilterBank.`	设计听觉过滤器银行
`MELSPECTROGGROP.`	梅尔·光谱图

听觉Cepstral系数

`audioDelta`	计算三角洲特征
`cepstralCoefficients`	提取cepstral系数
`GTCC.`	提取伽玛酮倒谱系数、能量对数、δ和δ - δ
`mfcc`	提取音频信号的MFCC, log energy, delta和delta

特色嵌入式

`vggishFeatures`	提取VAGATH特征
`OpenL3Features.`	提取OpenL3功能

周期性和调和性

`audioDelta`	计算三角洲特征
`handonicratio`	谐波比率
`球场`	估计音频信号的基本频率
`pitchnn`	深度学习神经网络估算音高

光谱描述符

`audioDelta`	计算三角洲特征
`Spectralcentroid.`	音频信号和听觉谱图的光谱质心
`光谱`	音频信号和听觉谱图的波峰
`光谱炸弹`	音频信号和听觉谱图的光谱减少
`spectralEntropy`	音频信号和听觉谱图的光谱熵
`spectralFlatness`	音频信号和听觉谱图的光谱平整度
`spectralFlux`	音频信号和听觉谱图的光谱通量
`Spectarkurtosis`	音频信号和听觉谱图的光谱峰度
`spectralrolloffpoint.`	音频信号和听觉谱图的谱滚点
`spectralSkewness`	音频信号和听觉谱图的光谱偏斜
`谱图`	音频信号和听觉谱图的谱斜率
`spectralSpread`	音频信号和听觉谱图的频谱扩展

域转换

`erb2hz`	从等效的矩形带宽（ERB）比例转换为赫兹
`bark2hz`	从树皮量表转换为赫兹
`mel2hz`	从梅尔规模转换为赫兹
`hz2erb`	从赫兹转换为等效矩形带宽（ERB）刻度
`HZ2Bark.`	从赫兹转换为树皮量表
`Hz2mel.`	从赫兹转换到梅尔尺度
`phon2sone`	从电话转换成电话
`sone2phon.`	从SONE转换为PHON

块

Cepstral特征提取器

从音频片段中提取倒谱特征

话题

光谱描述符

谱描述符的概述和应用。

使用深度学习学习前置重点过滤器

使用卷积的深网络来学习用于语音识别的预重点过滤器。

特色例子

使用X-Vectors的扬声器识别

开发一个X-向量系统来执行扬声器识别。

打开生活的脚本

使用X载体的扬声器估算

扬声器日流是根据扬声器标识将音频信号划分为段的过程。它回答了“谁谈到”讲话者的事先知识的问题，并且根据申请，没有先验知识的扬声器的知识。

打开生活的脚本

使用内存外功能列出讲话的数字识别网络

使用转换后的数据存储，在内存不足的听觉谱图上训练口语数字识别网络。在本例中，您使用audioDatastore和audioFeatureExtractor从音频中提取听觉光谱图，并将它们写入磁盘。然后在训练期间使用signalDatastore访问特性。当训练特性不适合内存时，工作流是有用的。在这个工作流中，您只提取一次特征，如果您在深度学习模型设计上进行迭代，这将加快您的工作流。

打开生活的脚本

使用内存不足的音频数据训练语音数字识别网络

使用转换后的数据存储在内存不足的音频数据上训练语音数字识别网络。在本例中，您将对用于训练卷积神经网络(CNN)的音频数据应用随机音高移位。对于每个训练迭代，使用audioDataAugmenter对象增强音频数据，然后使用audioFeatureExtractor对象提取特征。本例中的工作流适用于在训练循环中使用的任何随机数据增强。当底层音频数据集或训练特性不适合内存时，该工作流也适用。

打开生活的脚本

使用深度学习的言语命令识别

培训深入学习模型，可检测音频中的语音命令的存在。该示例使用语音命令数据集[1]培训卷积神经网络以识别给定的一组命令。

打开脚本

基于深度学习的噪声中语音活动检测

在低信噪比环境下使用深度学习检测语音区域。该示例使用语音命令数据集训练双向长短期记忆(BiLSTM)网络来检测语音活动。

打开生活的脚本

用小波散射和深度学习的口语数字识别

使用机器和深度学习技术对语音数字进行分类。在本例中，使用支持向量机(SVM)和长短期记忆(LSTM)网络使用小波时间散射进行分类。金宝app您还可以应用贝叶斯优化来确定合适的超参数，以提高LSTM网络的精度。此外，该示例说明了一种使用深度卷积神经网络(CNN)和梅尔频率谱图的方法。

打开生活的脚本

基于小波时间散射的音乐类型分类

使用小波时间散射和音频数据存储来分类音乐摘录的类型。在小波散射中，数据通过一系列小波变换，非线性和平均传播，以产生数据的低方差表示。然后将这些低方差表示作为分类器的输入。

打开生活的脚本

音频功能的顺序特征选择

一个典型的特征选择工作流应用于语音数字识别任务。

打开生活的脚本

声学场景识别使用后期融合

建立多模型声场景识别后期融合系统。这个例子训练卷积神经网络(CNN)使用mel谱图和集成分类器使用小波散射。该示例使用TUT数据集进行训练和评估[1]。

打开脚本

使用i-Vectors进行说话人验证

说话人验证或认证的任务是确认说话人的身份是否属实。多年来，发言人验证一直是一个活跃的研究领域。早期的一个性能突破是使用高斯混合模型和通用背景模型(GMM-UBM)[1]对声学特征(通常是mfcc)。例如，请参见使用高斯混合模型的扬声器验证。GMM-UBM系统的主要困难之一涉及会话间的可变性。联合因素分析(JFA)被提议通过分别模拟说话间变异性和频道或会话变异性[2][3]来补偿这种变异性。然而，[4]发现JFA中的通道因子也包含了关于说话人的信息，并提出将通道和说话人空间合并成一个总的可变性空间。然后使用后端程序(如线性判别分析(LDA)和类内协方差归一化(WCCN))来补偿会话间的变异性，然后是一个评分，如余弦相似度评分。[5]提出用概率LDA (PLDA)模型代替余弦相似度评分。[11]和[12]提出了一种将i向量高斯化的方法，从而在PLDA中做高斯假设，简称G-PLDA或简化PLDA。 While i-vectors were originally proposed for speaker verification, they have been applied to many problems, like language recognition, speaker diarization, emotion recognition, age estimation, and anti-spoofing [10]. Recently, deep learning techniques have been proposed to replace i-vectors with d-vectors or x-vectors [8] [6].

打开生活的脚本

使用高斯混合模型的说话人验证

说话人验证或身份验证的任务是验证一个给定的语音片段是否属于一个给定的说话人。在说话人验证系统中，存在一个所有其他说话人的未知集合，因此，话语属于验证对象的可能性与不属于验证对象的可能性进行比较。这与识别说话人的任务形成对比，在识别任务中，计算每个说话人的可能性，并对这些可能性进行比较。说话人验证和说话人识别都可以是文本依赖或文本独立的。在本例中，您使用高斯混合模型/通用背景模型(GMM-UBM)创建一个依赖文本的说话者验证系统。

打开生活的脚本