主要内容

标签音频使用音频贴标机

音频贴标机应用程序使您能够以交互方式定义和可视化音频数据集的地面实况标签。此示例显示如何创建标签定义,然后以交互方式标记一组音频文件。此示例还显示如何导出标记的地面实况数据,然后与一起使用audioDatastore训练机器学习系统。

加载标签数据

  1. 打开音频贴标机,在MATLAB®命令提示符下,输入:

    audioLabeler

  2. 本例中使用附带的音频工具箱™音频文件。要查找您系统上的文件路径,在MATLAB命令提示符下输入:

    完整文件(matlabroot,'工具箱''声音的'“样品”

    从文件,点击加载音频加载>音频文件夹并选择包含要标记的音频文件的文件夹。

定义和分配标签

文件级标签

音频样本包括音乐,语音和氛围。要创建一个文件级标签的音频文件的内容定义为音乐演讲环境, 或者未知, 点击。指定标签名称作为内容, 这数据类型作为明确的,而且类别作为音乐演讲环境, 或者未知。设置默认值标签定义的未知

在所有的音频文件数据浏览器现正与相关内容标签名称。收听在中选择的音频文件数据浏览器并确认这是一个音乐文件,单击。要设置的值内容标签,单击未知在里面文件标签面板,选择音乐从下拉菜单中。

所选择的音频文件,现在有标签名称内容与价值音乐分配给它。您可以继续设置内容通过在选择一个文件的每个文件值数据浏览器然后选择从一个值文件标签控制板。

区级标签

可以手动或通过使用提供的自动算法限定区域级标签。音频工具箱包括用于语音检测和语音到文本转录自动贴标签算法。

笔记

要启用自动语音到文本的转录,你必须下载并设置语音到文本转功能。一旦你下载并设置了语音到文本的转录功能外,语音到文本自动化算法出现在工具条的选项。

选择计数-16-44p1单 - 15secs.wav来自数据浏览器

要创建一个区域级的标签,表明如果检测到语音,第一选择话音检测来自自动化部分。您可以使用控制语音检测算法窗口长度(S)合并区域内的(一个或多个)参数。使用默认参数的语音检测算法。要创建一个投资回报率的标签,并选择音频文件的标签区域,选择

关上话音检测标签。您可以更正或微调的自动生成SpeechDetected通过从ROI栏中选择ROI,然后拖动区域的边缘区域。投资回报率栏直接到ROI标签的右侧。当选择的区域中,点击仅播放选定区域,使您能够验证选定区域是否捕获所有相关听觉信息。

如果你已经设置了语音到文本的转录服务,请选择语音到文本来自自动化部分。您可以使用名称 - 值对选项的具体到您所选择的服务控制语音到文本的转录。此示例使用IBM®服务和指定没有其他选项。

从转录服务返回的ROI标签与起点和终点的字符串。开始和结束点不完全对应于手动校正语音检测区域的起点和终点。您可以矫正的端点SpeechContentROI标签通过选择区域,然后拖动区域的边缘。转录服务误判的话“两”为“到”,“四大”作为“”和“十”是“然后”。您可以通过选择区域,然后进入一个新的字符串正确的字符串。

请通过单击另一个区域级标签在里面ROI标签控制板。放标签名称VUV., 放数据类型明确的, 和类别浊音清音

默认情况下,波形查看器显示整个文件。要显示缩放和平移,悬停在情节的右上角的工具。放大音频文件的第一个五秒钟。

当你在剧情选择一个区域,然后悬停在两个ROI条中的任何,该区域出现的阴影。到所选择的区域分配给类别浊音, 点击在这一点SpeechContent标签栏。将鼠标悬停在VUV.标签栏,然后单击阴影,然后选择浊音

接下来的两个词,“二”,“三”,同时包含有声和无声的讲话。选择演讲的每一个区域上的情节,将鼠标悬停在真空紫外标签栏,并选择正确的类别为该区域。

出口标签定义

您可以定义标签定义导出为MAT文件或MATLAB脚本。维护标签定义,使用户和会话之间是一致的标签。选择出口>标签定义>到文件

这些标签被保存为阵列signalLabelDefinition对象。在你的下一次会议,你可以导入通过选择标签定义进口>标签定义>从文件

出口标记的音频数据

你可以标记信号设置导出到文件或到您的工作空间。选择出口>标签>工作空间

音频贴标机创建labeledSignalSet对象命名labeledSet_HHMMSS哪里HHMMSS是对象以小时,分钟和秒创建时间。

labeledSet_104620
labeledSet_104620 = labeledSignalSet与属性:来源:{29×1细胞} NumMembers:29 TimeInformation: “固有的” 标签:[29×4表]说明: “” 使用labelDefinitionsHierarchy看到标签和子标签的列表。使用setLabelValue将数据添加到该集合。

您创建的标签保存为一个表来标签财产。

labeledset_142356.Labels.
2.4)2 2 2 2 2 2 4 4 4 4 4 4 4 4)表表表内容。词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词词词词词词词词词词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词词词词词词词词词词词词词词词词词词词词词词词词词词词词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇词汇音频\样本\音频阵列-16-16-4通道-20secs.wav环境{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Church PulseResponse-16-44p1-mono-5secs.wav未知{0×2 table}{0×2 table}{0×2 table}C:\Program Files MATLAB R2019b\toolbox\audio\samples\Click-16-44p1-mono-0.2secs.wav环境{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Counting-16-44p1-mono-15secs.wav语音{10×2 table}{10×2 table}{5×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Engine-16-44p1-stereo-20sec.wav环境{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FemaleSpeech-16-8-mono-3secs.wav语音{0×2表格}{0×2表格}{0×2表格}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-44p1-stereo-25secs.mp3音乐{0×2表格}{0×2表格}{0×2表格}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-48-stereo-25secs.mp3音乐{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Heli_16ch_ACN_SN3D.wav环境{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\JetAirplane-16-11p025-mono-16secs.wav环境{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Loughts-16-8-mono-4secs.wav环境{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\MainStreetOne-24-96-stereo-63secs.wav环境{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\NoiseSpeech-16-22p5-mono-5secs.wav语音{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Rainbow-16-8-mono-114secs.wav语音{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RainbowNoised-16-8-mono-114secs.wav语音{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RandomOscThree-24-96-stereo-13secs.aif music{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-44p1-stereo-11secs.mp3 music{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-48-stereo-11secs.mp3音乐{0×2表格}{0×2表格}{0×2表格}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-44p1-stereo-72secs.wav音乐{0×2表格}{0×2表格}{0×2表格}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-96-stereo-72secs.flac music{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SoftGuitar-44p1_mono-10mins.ogg music{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SpeechDFT-16-8-mono-5secs.wav语音{0×2表格}{0×2表格}{0×2表格}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\TrainWhistle-16-44p1-mono-9secs.wav环境{0×2表格}{0×2表格}{0×2表格}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Turbine-16-44p1-mono-22secs.wav环境{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-44p1-stereo-10secs.wav环境{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-1000secs.wav环境{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-200secs.wav环境{0×2 table}{0×2 table}{0×2 table}{0×2 table}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WaveGuideLoopOne-24-96-stereo-10secs.aif music{0×2 table}{0×2 table}{0×2 table}

与标签关联的文件名将作为单元格数组保存到来源财产。

labeledSet_104620.Source
ans = 29×1个单元阵列{c:\ program files \ matlab \ r2019b \ toolbox \ audio \ samples \ gamance-16-44p1-mono-12secs.wav'} {'c:\ program files \ matlab \ r2019b \到olbox\audio\samples\AudioArray-16-16-4channels-20secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ChurchImpulseResponse-16-44p1-mono-5secs.wav'} {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Click-16-44p1-mono-0.2secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Counting-16-44p1-mono-15secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Engine-16-44p1-stereo-20sec.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FemaleSpeech-16-8-mono-3secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-44p1-stereo-25secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-48-stereo-25secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Heli_16ch_ACN_SN3D.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\JetAirplane-16-11p025-mono-16secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Laughter-16-8-mono-4secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\MainStreetOne-24-96-stereo-63secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\NoisySpeech-16-22p5-mono-5secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Rainbow-16-8-mono-114secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RainbowNoisy-16-8-mono-114secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RandomOscThree-24-96-stereo-13secs.aif' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-44p1-stereo-11secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-48-stereo-11secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-44p1-stereo-72secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-96-stereo-72secs.flac' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SoftGuitar-44p1_mono-10mins.ogg' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SpeechDFT-16-8-mono-5secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\TrainWhistle-16-44p1-mono-9secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Turbine-16-44p1-mono-22secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-44p1-stereo-10secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-1000secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-200secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WaveGuideLoopOne-24-96-stereo-10secs.aif' }

准备音频数据存储深学习工作流程

要继续深入学习或机器学习工作流,请使用audioDatastore。使用音频数据存储使您能够应用能力,是常见的机器学习应用,如splitEachLabelsplitEachLabel可让您将数据分成训练和测试集。

为您的标记信号集创建音频数据存储。指定音频文件的位置作为第一个参数audioDatastore并设置了标签财产audioDatastore到了标签标记信号集合的属性。

ADS = audioDatastore(labeledSet_104620.Source,'标签',labeledSet_104620.Labels)

ADS = audioDatastore具有属性:文件:{ '... \工具箱\音频\样本\气氛-16-44p1单 -  12secs.wav';'... \工具箱\音频\样本\ AudioArray-16-16-4channels-20secs.wav';'... \工具箱\音频\样本\ ChurchImpulseResponse-16-44p1单 -  5secs.wav' ...和26更}标签:29×4表AlternateFileSystemRoots:{} OutputDataType: '双'

称呼countEachLabel并指定内容表变量来计算被标记为文件的数量环境音乐演讲, 或者未知

countEachLabel(ADS,'TableVariable''内容'
ANS = 4×2表的内容计数________ _____氛围13音乐9语音6未知1

用于在机器学习或深学习工作流程中使用标记的音频数据的实例,参见:

也可以看看

||||