机器学习和音频深度学习

数据集管理,标记和扩增;分割和音频,语音特征提取和声学应用

Audio Toolbox™提供了使用机器学习和深度学习来开发音频、语音和声学应用程序的功能。使用audioDatastore管理和加载大型数据集。使用音频贴标签机以互动的方式定义和形象化地面真相。使用audioDataAugmenter使用特定于音频的增强技术来扩大数据集。使用audioFeatureExtractor创建高效和模块化的特征提取管道。

应用程序

音频贴标签机 定义并可视化基本事实标签

住编辑任务

提取音频功能 流线音频特征提取在现场编辑器

功能

全部展开

audioDatastore 用于收集音频文件的数据存储
MFCC 提取MFCC,数能量,DELTA和delta-Δ音频信号
gtcc 提取伽玛酮倒谱系数,对数能量,德尔塔和德尔塔
cepstralFeatureExtractor 从音频段中提取倒谱特征
audioDataAugmenter 增加音频数据
audioTimeScaler 对流式音频应用时间缩放
shiftPitch 移音频程度
stretchAudio Time-stretch音频
erb2hz 将等效矩形带宽(ERB)转换为赫兹
bark2hz 从树皮鳞片转换成赫兹
mel2hz 从梅尔刻度转换到赫兹
hz2erb 转换从赫兹到等效矩形带宽(ERB)规模
hz2bark 转换从赫兹树皮规模
hz2mel 转换从赫兹到梅尔的规模
phon2sone 从响度单位到宋转换
sone2phon 从sone转换为phon
designAuditoryFilterBank 设计听觉滤波器组
integratedLoudness 测量综合响度和响度范围
loudnessMeter 符合标准的响度测量
harmonicRatio 谐波比率
球场 估计音频信号的基频
detectSpeech 检测语音的边界在音频信号
voiceActivityDetector 检测音频信号的语音存在
audioFeatureExtractor 简化音频特征提取
spectralCentroid 用于音频信号和听觉谱图的谱心
spectralCrest 光谱波峰的音频信号和听觉谱图
spectralDecrease 音频信号和听觉谱图的谱下降
spectralEntropy 用于音频信号和听觉谱图的谱熵
spectralFlatness 用于音频信号和听觉光谱图的光谱平直度
spectralFlux 用于音频信号和听觉谱图的光谱通量
spectralKurtosis 用于音频信号和听觉谱图的光谱峰度
spectralRolloffPoint 频谱滚降点,音频信号和听觉谱图
spectralSkewness 音频信号和听觉谱图的光谱偏度
spectralSlope 音频信号和听觉频谱频谱斜率
spectralSpread 用于音频信号和听觉谱图的谱扩展
melSpectrogram 梅尔·光谱图
kbdwin 凯泽 - 贝塞尔派生窗
多层螺旋ct 修正的离散余弦变换
IMDCT 反修改的离散余弦变换

声音活动检测器 检测音频信号的语音存在
Cepstral特征提取器 从音频段中提取倒谱特征
响度计 符合标准的响度测量

主题

使用音频标签机标记音频

交互式地定义和可视化音频数据集的基本事实标签。

“语音转录

在MATLAB中进行语音到文本的转录®使用第三方基于云的API。

语音转换

使用第三方基于云的api在MATLAB中执行文本到语音的转换。

光谱描述符

光谱描述符的概述和应用。

特色的例子