主要内容

标签音频使用音频贴标机

这个音频贴标机应用程序,让您交互式定义和可视化地面真相标签的音频数据集。这个示例展示了如何创建标签定义,然后交互式地为一组音频文件添加标签。该示例还展示了如何导出标记为ground-truth的数据,然后可以使用这些数据音频数据存储训练机器学习系统。

加载未标记的数据

  1. 打开音频贴标机,在MATLAB®命令提示符中,输入:

    音频标签机

  2. 本示例使用audio Toolbox™中包含的音频文件。要在您的系统中定位文件路径,在MATLAB命令提示符中输入:

    完整文件(matlabroot,“工具箱”,“音频”,“样本”)

    要从文件中加载音频,单击负载>音频文件夹并选择包含要标记的音频文件的文件夹。

定义和分配标签

文件级标签

音频样本包括音乐、语音和环境。创建文件级标签,将音频文件的内容定义为音乐,演讲,气氛未知的,点击. 指定标签名称内容这个数据类型分类,以及类别音乐,演讲,气氛未知的. 设定默认值的标签定义未知的

中的所有音频文件数据浏览器现在与内容标签的名字。单击,收听选中的音频文件数据浏览器确认是音乐文件,点击.的值内容标签,单击未知的文件标签面板并选择音乐从下拉菜单中。

选中的音频文件现在有了标签名称内容有价值音乐分配给它的。您可以继续设置内容属性中的文件的值数据浏览器然后从中选择一个值文件标签面板。

区域级标签

您可以手动或使用提供的自动算法定义区域级标签。音频工具箱包括用于语音检测和语音到文本转录的自动标记算法。

笔记

要启用自动语音转文本转录功能,您必须下载并设置语音文本转换功能。下载并设置语音到文本转录功能后语音文字转换自动算法显示为toolstrip上的一个选项。

选择计数-16-44p1-mono-15秒波形数据浏览器

要创建指示是否检测到语音的区域级标签,请首先选择语音检测器自动化部分您可以使用窗长合并范围内的区域参数。使用语音检测算法的默认参数。要创建ROI标签并标记选定音频文件的区域,请选择

关闭语音检测器标签。您可以更正或微调自动生成的SpeechDetected通过从感兴趣区域条中选择感兴趣区域,然后拖动区域的边缘。ROI栏直接位于ROI标签的右侧。选中区域后,单击只播放所选区域,使您能够验证所选区域是否捕获所有相关的听觉信息。

如果已设置语音到文本转录服务,请选择语音文字转换自动化部分。您可以使用特定于所选服务的名称-值对选项来控制语音到文本的转录。本示例使用IBM®服务,不指定其他选项。

从转录服务返回的ROI标签是带有起始点和结束点的字符串。开始点和结束点与人工修正的语音检测区域的开始点和结束点并不完全对应。你可以修正演讲内容通过选择区域,然后拖动区域的边缘来标记ROI。转录服务将单词“2”误分类为“to”,“four”误分类为“for”,而“ten”误分类为“then”。您可以通过选择区域然后输入新字符串来更正该字符串。

通过单击创建另一个区域级别标签ROI标签面板。集标签名称VUV设置数据类型分类,类别发声无声的

默认情况下,波形查看器显示整个文件。要显示用于缩放和平移的工具,请将光标悬停在绘图的右上角。放大音频文件的前五秒钟。

当您在绘图中选择一个区域,然后将鼠标悬停在两个ROI条中的任意一条上时,该区域的阴影将出现。将选定区域指定给类别的步骤发声,点击演讲内容标签栏。悬停在VUV标签栏,然后单击阴影并选择发声

接下来的两个词,“2”和“3”,包含了发声和不发声。选择情节上的每个语音区域,将鼠标悬停在VUV标签栏上,并为该区域选择正确的类别。

导出标签定义

可以将标签定义导出为MAT文件或MATLAB脚本。维护标签定义可以在用户和会话之间实现一致的标签。选择出口>标签定义>归档

标签将另存为signalLabelDefinition物体。在下一个会话中,可以通过选择导入标签定义进口>标签定义>从文件

导出带标签的音频数据

您可以将标记信号集导出到文件或您的工作空间。选择出口>标签>到工作空间

这个音频贴标机创建一个标记信号集对象命名标签集_HHMMSS,在那里HHMMSS是对象创建的时间,单位为小时、分钟和秒。

标签集_104620
labeledSet_104620 = labeledSignalSet with properties: Source: {29×1 cell} NumMembers: 29 TimeInformation: "inherent" Labels: [29×4 table] Description: ""使用labelDefinitionsHierarchy查看标签和子标签列表。使用setLabelValue将数据添加到集合。

创建的标签将作为表格保存到标签所有物

labeledSet_142356.Labels
ans = 29×4表内容SpeechDetected SpeechContent VUV  ________ ______________ _____________ ___________ C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ Ambiance-16-44p1-mono-12secs.wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ AudioArray-16-16-4channels-20secs.wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ ChurchImpulseResponse-16-44p1-mono-5secs.wav未知{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\点击- 16 - 44 - p1 - mono - 0.2 - secs.wav氛围{0×2表}{0×2表}}{0×2表C: \程序文件\ MATLAB工具箱\ R2019b \ \音响\ samples \ Counting-16-44p1-mono-15secs.wav演讲{10×2表}{10×2表}{5×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ Engine-16-44p1-stereo-20sec.wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ FemaleSpeech-16-8-mono-3secs.wav演讲{0×2table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-44p1-stereo-25secs.mp3 music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-48-stereo-25secs.mp3 music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Heli_16ch_ACN_SN3D.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\JetAirplane-16-11p025-mono-16secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Laughter-16-8-mono-4secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\MainStreetOne-24-96-stereo-63secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\NoisySpeech-16-22p5-mono-5secs.wav speech { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Rainbow-16-8-mono-114secs.wav speech { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RainbowNoisy-16-8-mono-114secs.wav speech { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RandomOscThree-24-96-stereo-13secs.aif music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-44p1-stereo-11secs.mp3 music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-48-stereo-11secs.mp3 music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-44p1-stereo-72secs.wav music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-96-stereo-72secs.flac music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SoftGuitar-44p1_mono-10mins.ogg music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SpeechDFT-16-8-mono-5secs.wav speech { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\TrainWhistle-16-44p1-mono-9secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Turbine-16-44p1-mono-22secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-44p1-stereo-10secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-1000secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-200secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WaveGuideLoopOne-24-96-stereo-10secs.aif music { 0×2 table} { 0×2 table} {0×2 table}

与标签关联的文件名以单元格数组的形式保存到所有物

标签集_104620.Source
ANS = 29×1单元阵列{ 'C:\ Program Files文件\ MATLAB \ R2019b \工具箱\音频\样本\气氛-16-44p1单 -  12secs.wav'} {'C:\ Program Files文件\ MATLAB \ R2019b \到olbox\audio\samples\AudioArray-16-16-4channels-20secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ChurchImpulseResponse-16-44p1-mono-5secs.wav'} {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Click-16-44p1-mono-0.2secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Counting-16-44p1-mono-15secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Engine-16-44p1-stereo-20sec.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FemaleSpeech-16-8-mono-3secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-44p1-stereo-25secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-48-stereo-25secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Heli_16ch_ACN_SN3D.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\JetAirplane-16-11p025-mono-16secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Laughter-16-8-mono-4secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\MainStreetOne-24-96-stereo-63secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\NoisySpeech-16-22p5-mono-5secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Rainbow-16-8-mono-114secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RainbowNoisy-16-8-mono-114secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RandomOscThree-24-96-stereo-13secs.aif' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-44p1-stereo-11secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-48-stereo-11secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-44p1-stereo-72secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-96-stereo-72secs.flac' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SoftGuitar-44p1_mono-10mins.ogg' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SpeechDFT-16-8-mono-5secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\TrainWhistle-16-44p1-mono-9secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Turbine-16-44p1-mono-22secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-44p1-stereo-10secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-1000secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-200secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WaveGuideLoopOne-24-96-stereo-10secs.aif' }

为深度学习工作流准备音频数据存储

要继续深入学习或机器学习工作流,请使用音频数据存储.使用音频数据存储使您能够应用机器学习应用程序中常见的功能,例如拆分标签拆分标签允许您将数据分割为训练集和测试集。

为您的标记信号集创建一个音频数据存储。的第一个参数指定音频文件的位置音频数据存储并设置标签性质音频数据存储标签标记的信号集的属性。

ADS=音频数据存储(labeledSet_104620.Source,“标签”,标签集_104620.标签)

ADS=audioDatastore,具有以下属性:文件:{'.\toolbox\audio\samples\Ambiance-16-44p1-mono-12secs.wav';'.'.\toolbox\audio\samples\audio-Array-16-16-16-4channels-20secs.wav';'.'.\toolbox\audio\samples\Church PulseResponse-16-44p1-mono-5secs.wav'…和26个以上}标签:29-by-4表格交替无系统根:{}输出数据类型:'double'

呼叫countEachLabel并指定内容表变量,用于统计标记为的文件数气氛,音乐,演讲未知的

countEachLabel(广告,“TableVariable”,“内容”)
ans = 4×2 table Content Count ________ _____ ambience 13 music 9 speech 6 unknown 1

有关在机器学习或深度学习工作流中使用带标签音频数据的示例,请参阅:

另见

||||