机器学习和音频的深度学习

数据集管理,标记和扩增;分割和音频,语音特征提取和声学应用

Audio Toolbox™提供使用机器学习和深度学习来开发音频、语音和声学应用程序的功能。使用audioDatastore管理和加载大型数据集。使用音频贴标签机交互定义和可视化地面实况。使用audioDataAugmenter使用音频专用增量技术放大的数据集。使用audioFeatureExtractor打造高效的模块化特征提取管线。

应用程序

音频贴标签机 定义和可视化地面实况标签

住编辑任务

提取音频功能 流线音频特征提取在实时编辑器

功能

展开全部

audioDatastore 用于收集音频文件的数据存储
MFCC 提取MFCC,数能量,DELTA和delta-Δ音频信号
gtcc 伽马通提取倒谱系数,数的能量,DELTA和delta-Δ
cepstralFeatureExtractor 提取音频段倒谱特征
audioDataAugmenter 增强的音频数据
audioTimeScaler 申请时间缩放音频流
shiftPitch 移音频程度
stretchAudio 时间拉伸音频
erb2hz 将等效矩形带宽(ERB)转换为赫兹
bark2hz 从树皮规模转换为赫兹
mel2hz 从梅尔刻度转换到赫兹
hz2erb 转换从赫兹到等效矩形带宽(ERB)的规模
hz2bark 从赫兹转换为巴克标
hz2mel 从赫兹转换为美度
phon2sone 从响度单位到宋转换
sone2phon 从sone转换为phon
designAuditoryFilterBank 设计听觉滤波器组
integratedLoudness 测量集成响度和响度范围
loudnessMeter 符合标准的响度测量
harmonicRatio 谐波比
沥青 估计音频信号的基频
detectSpeech 检测语音的边界在音频信号
voiceActivityDetector 检测音频信号的语音存在
audioFeatureExtractor 简化音频特征提取
spectralCentroid 频谱质心为音频信号和听觉谱图
spectralCrest 光谱波峰的音频信号和听觉谱图
spectralDecrease 音频信号和听觉谱图的光谱衰减
spectralEntropy 用于音频信号和听觉谱图的谱熵
spectralFlatness 用于音频信号和听觉光谱图的光谱平坦度
spectralFlux 音频信号和听觉谱图光谱通量
spectralKurtosis 用于音频信号和听觉谱图的光谱峰度
spectralRolloffPoint 频谱滚降点,音频信号和听觉谱图
spectralSkewness 谱偏斜的音频信号和听觉谱图
spectralSlope 音频信号和听觉频谱频谱斜率
spectralSpread 频谱扩展的音频信号和听觉谱图
melSpectrogram 梅尔谱图
kbdwin 凯泽 - 贝塞尔派生窗
多层螺旋ct 改进离散余弦变换
IMDCT 逆改进离散余弦变换

语音活动检测器 检测音频信号的语音存在
倒谱特征提取 提取音频段倒谱特征
响度计 符合标准的响度测量

主题

标签音频使用音频贴标机

交互式地定义和可视化音频数据集的基本事实标签。

“语音转录

请在MATLAB语音到文本转®使用第三方基于云的API。

文本到语音转换

使用第三方基于云的api在MATLAB中执行文本到语音的转换。

光谱描述符

光谱描述符的概述及应用。

特色的例子