的音频贴标签机应用程序,让您交互式定义和可视化地面真相标签的音频数据集。这个示例展示了如何创建标签定义,然后交互式地为一组音频文件添加标签。该示例还展示了如何导出标记为ground-truth的数据,然后可以使用这些数据audioDatastore
训练机器学习系统。
打开音频贴标签机,在MATLAB®在命令提示下,输入:
audioLabeler
此示例使用音频工具箱中包含的音频文件™. 要在系统上定位文件路径,请在MATLAB命令提示下输入:
fullfile (matlabroot“工具箱”,“音频”,“样本”)
要从文件加载音频,请单击负载>音频文件夹然后选择包含要标记的音频文件的文件夹。
音频样本包括音乐、演讲和氛围。创建文件级标签,该标签将音频文件的内容定义为音乐
,演讲
,气氛
,或未知的
点击.指定标签名称作为内容
,数据类型作为绝对的
,类别作为音乐
,演讲
,气氛
,或未知的
.设置默认值将标签定义的未知的
.
所有音频文件在数据浏览器现在与内容
标签的名字。单击,收听选中的音频文件数据浏览器并确认它是音乐文件,单击。设置目录
标签,点击未知的
在文件标签面板并选择音乐
从下拉菜单。
选定的音频文件现在具有标签名称内容
与价值音乐
分配给它。您可以继续设置内容
通过在数据浏览器然后从文件标签面板。
您可以手动定义地区级别标签,也可以使用提供的自动算法。音频工具箱包括语音检测和语音到文本转录的自动标记算法。
请注意
要启用自动语音到文本转录,必须下载并设置“语音转录功能。一旦你下载并设置了语音转文本的转录功能从语音到文本自动化算法出现在工具条上的一个选项。
选择Counting-16-44p1-mono-15secs.wav
从数据浏览器.
要创建指示是否检测到语音的区域级标签,请首先选择语音检测器从自动化部分。控件可以控制语音检测算法窗口长度(年代)和合并(个)内的区域参数。语音检测算法参数保持默认值。若要创建ROI标签并对所选音频文件的区域进行标签,请选择运行.
关闭语音检测器选项卡。您可以纠正或微调自动生成的言语通过从ROI栏中选择ROI区域,然后拖动区域的边缘。ROI栏直接位于ROI标签的右侧。选择区域后,单击只播放所选区域,使您能够验证所选区域是否捕获所有相关的听觉信息。
如果您已经设置了语音转文本转录服务,请选择从语音到文本从自动化部分。您可以使用特定于所选服务的名称-值对选项来控制语音到文本的转录。此示例使用IBM®服务,并没有指定其他选项。
从转录服务返回的ROI标签是带有起点和终点的字符串。起始点和结束点与手动校正语音检测区域的起始点和结束点不完全对应。您可以更正SpeechContent通过选择ROI标签区域,然后拖动区域的边缘。抄写员把"二"误分类为"到" "四"误分类为"为" "十"误分类为"然后"您可以通过选择区域然后输入一个新字符串来纠正该字符串。
通过单击创建另一个区域级标签在ROI标签面板设置标签名称来VUV
,设置数据类型来绝对的
,及类别来表达了
和清音
.
默认情况下,波形查看器显示整个文件。要显示缩放和平移工具,将鼠标悬停在绘图的右上角。放大音频文件的前五秒。
当您在图中选择一个区域,然后将鼠标悬停在任意两个ROI条上时,该区域的阴影就会出现。将选定的区域分配给类别表达了点击一个上SpeechContent标签栏。将鼠标悬停在VUV标记栏,然后单击阴影并选择表达了
.
接下来的两个单词“二”和“三”包含有声和无声语音。选择绘图上的每个语音区域,将鼠标悬停在VUV标签栏上,然后为该区域选择正确的类别。
您可以将标签定义导出为MAT文件或MATLAB脚本。维护标签定义可以使用户和会话之间的标签保持一致。选择出口>标签定义>到文件.
标签以数组的形式保存信号标签定义
对象。在下一个会话中,您可以通过选择导入标签定义进口>标签定义>从文件.
您可以将标记的信号集导出到文件或工作区。选择出口>标签>到工作空间.
的音频贴标签机创建一个labeledSignalSet
名为labeledSet_
HHMMS,在那里HHMMS以小时、分钟和秒为单位创建对象的时间。
labeledSet_104620
labeledSet_104620=具有属性的labeledSignalSet:Source:{29×1 cell}nummbers:29时间信息:“固有”标签:[29×4表格]说明:“”使用labelDefinitionsHierarchy查看标签和子标签的列表。使用setLabelValue向集合添加数据。
创建的标签将作为表保存到标签
财产。
labeledSet_142356。标签
ans = 29×4表内容SpeechDetected SpeechContent VUV ________ ______________ _____________ ___________ C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ Ambiance-16-44p1-mono-12secs.wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ AudioArray-16-16-4channels-20secs.wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ ChurchImpulseResponse-16-44p1-mono-5secs.wav未知{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\点击- 16 - 44 - p1 - mono - 0.2 - secs.wav氛围{0×2表}{0×2表}}{0×2表C: \程序文件\ MATLAB工具箱\ R2019b \ \音响\ samples \ Counting-16-44p1-mono-15secs.wav演讲{10×2表}{10×2表}{5×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ Engine-16-44p1-stereo-20sec.wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ FemaleSpeech-16-8-mono-3secs.wav演讲{0×2table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-44p1-stereo-25secs.mp3 music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-48-stereo-25secs.mp3 music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Heli_16ch_ACN_SN3D.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\JetAirplane-16-11p025-mono-16secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Laughter-16-8-mono-4secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\MainStreetOne-24-96-stereo-63secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\NoisySpeech-16-22p5-mono-5secs.wav speech { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Rainbow-16-8-mono-114secs.wav speech { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RainbowNoisy-16-8-mono-114secs.wav speech { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RandomOscThree-24-96-stereo-13secs.aif music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-44p1-stereo-11secs.mp3 music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-48-stereo-11secs.mp3 music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-44p1-stereo-72secs.wav music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-96-stereo-72secs.flac music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SoftGuitar-44p1_mono-10mins.ogg music { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SpeechDFT-16-8-mono-5secs.wav speech { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\TrainWhistle-16-44p1-mono-9secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Turbine-16-44p1-mono-22secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-44p1-stereo-10secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-1000secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-200secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WaveGuideLoopOne-24-96-stereo-10secs.aif music { 0×2 table} { 0×2 table} {0×2 table}
与标签关联的文件名以单元格数组的形式保存到源
财产。
labeledSet_104620。源
ans = 29×1单元阵列{“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ samples \ Ambiance-16-44p1-mono-12secs.wav’}{“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ samples \ AudioArray-16-16-4channels-20secs.wav’}{“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ samples \ ChurchImpulseResponse-16-44p1-mono-5secs.wav’}{“C: \程序文件\ MATLAB工具箱\ R2019b \ \音响\ samples \点击- 16 - 44 - p1 - mono - 0.2——secs.wav}{“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ samples \ Counting-16-44p1-mono-15secs.wav’}{“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ samples \ Engine-16-44p1-stereo-20sec.wav’}{“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ samples \ FemaleSpeech-16-8-mono-3secs.wav '}C: Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-44p1-stereo-25secs.mp3'} {'C: Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-48-stereo-25secs.mp3'} {'C: Program Files\MATLAB\R2019b\toolbox\audio\samples\Heli_16ch_ACN_SN3D.wav'} {'C: Program Files\MATLAB\R2019b\toolbox\audio\samples\FunkyDrums-48-stereo-25secs.mp3'文件\MATLAB\R2019b\工具箱\音频\样本\JetAirplane-16-11p025-mono-16secs.wav'} {'C:程序文件\MATLAB\R2019b\工具箱\音频\样本\Laughter-16-8-mono-4secs.wav'} {'C:程序文件\MATLAB\R2019b\工具箱\音频\样本\MainStreetOne-24-96-stereo-63secs.wav'} {'C:程序C: Program Files\MATLAB\R2019b\toolbox\audio\samples\ rainbownoise -16-8-mono-114secs.wav'} {'C: Program Files\MATLAB\R2019b\toolbox\audio\samples\ rainbownoise -16-8-mono-114secs.wav'} {'C: Program Files\MATLAB\R2019b\toolbox\audio\samples\ rainbownoise -16-8-mono-114secs.wav'文件\ MATLAB工具箱\ R2019b \ \音响\ samples \ randomoscthree - 24 - 96立体声- 13秒。如果'}{'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-44p1-stereo-11secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockDrums-48-stereo-11secs.mp3' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-44p1-stereo-72secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\RockGuitar-16-96-stereo-72secs.flac' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SoftGuitar-44p1_mono-10mins.ogg' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\SpeechDFT-16-8-mono-5secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\TrainWhistle-16-44p1-mono-9secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Turbine-16-44p1-mono-22secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-44p1-stereo-10secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-1000secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-200secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WaveGuideLoopOne-24-96-stereo-10secs.aif' }
要继续深入学习或机器学习工作流,请使用audioDatastore
. 使用音频数据存储使您能够应用机器学习应用程序通用的功能,例如splitEachLabel
.splitEachLabel
使您能够将数据拆分为训练集和测试集。
为标记的信号集创建音频数据存储。将音频文件的位置指定为的第一个参数audioDatastore
设定标签
的属性audioDatastore
到标签
标记信号集的属性。
广告= audioDatastore (labeledSet_104620。源,“标签”labeledSet_104620.Labels)
ADS = audioDatastore与属性:文件:{'…\工具箱\音频\样本\ ambience -16-44p1-mono-12secs.wav';’……\工具箱\音响\ samples \ AudioArray-16-16-4channels-20secs.wav”;“…\工具箱\音响\ samples \ ChurchImpulseResponse-16-44p1-mono-5secs.wav”……和26个更多的}标签:29 × 4表AlternateFileSystemRoots: {} OutputDataType: 'double'
调用计数标签
并指定内容
表变量来计算标记为的文件的数量气氛
,音乐
,演讲
,或未知的
.
countEachLabel(ADS,“TableVariable”,“内容”)
ans=4×2表格内容计数\uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu
有关在机器学习或深度学习工作流中使用标记音频数据的示例,请参见:
audioDatastore
|音频设备阅读器
|audioDeviceWriter
|labeledSignalSet
|信号标签定义