主要内容

标签使用音频贴标签机音频

音频贴标签机应用程序使您能够交互式地定义为音频数据集和真实可视化标签。这个例子展示了如何创建标签然后交互式地定义标签一组音频文件。真实的示例还展示了如何导出标签数据,您可以使用audioDatastore训练一个机器学习系统。

无标号数据加载

  1. 打开音频贴标签机在MATLAB®命令提示符中,输入:

    audioLabeler

  2. 下面的例子使用了音频文件包含音频工具箱™。定位系统上的文件路径,在MATLAB命令提示符,输入:

    fullfile (matlabroot“工具箱”,“音频”,“样本”)

    从文件加载音频,点击负载>音频文件夹并选择你想要的文件夹包含音频文件标签。

定义和分配标签

文件级标签

音频样本包括音乐、演讲和氛围。创建一个文件级别标签定义了音频文件的内容音乐,演讲,气氛,或未知的,点击。指定标签名称作为内容,数据类型作为分类,类别作为音乐,演讲,气氛,或未知的。设置默认值标签定义的未知的

所有的音频文件数据浏览器现在的吗内容标签的名字。听音频文件中选择数据浏览器并确认这是一个音乐文件,点击。设置的值内容标签,点击未知的文件标签面板并选择音乐从下拉菜单。

选中的音频文件现在有标签的名字内容与价值音乐分配给它。你可以继续设置内容值为每个文件中选择一个文件数据浏览器然后选择一个值文件标签面板。

区域层次上的标签

您可以定义区域层次上标签手动或通过使用提供的自动算法。演讲的音频工具箱包括自动贴标算法检测和语音转录。

请注意

要启用自动语音转录,您必须下载并设置“语音转录功能。一旦您下载和设置语音转录功能,语音文字转换自动化算法出现在将来发布作为一个选项。

选择Counting-16-44p1-mono-15secs.wav数据浏览器

创建一个区域层次上的标签,表明如果检测到演讲,第一选择语音检测器自动化部分。你可以控制使用的语音检测算法窗口长度(年代)合并区域内(s)参数。使用默认的参数语音检测算法。创建一个ROI的标签和标签区域选择的音频文件,选择运行

关闭语音检测器选项卡。你可以纠正或调整自动生成SpeechDetected通过选择区域ROI的ROI酒吧,然后拖动的边缘地区。ROI栏直接ROI右边的标签。当选择一个区域,点击只有所选地区,使您能够验证是否选中的区域捕捉所有相关听觉信息。

如果你建立了一个“语音转录服务选择语音文字转换自动化部分。您可以使用名称-值对的选项控制语音转录特定于您所选择的服务。下面的例子使用了IBM®服务和指定附加选项。

ROI标签从转录服务返回字符串的开始和结束点。开始和结束点不完全对应的开始和结束点手动纠正语音检测区域。你可以正确的端点SpeechContentROI通过选择区域,然后把标签的边缘地区。转录服务分类错误的“两个”这个词一样“,”“四”“,”和“十”“。”You can correct the string by selecting the region and then entering a new string.

通过点击创建另一个区域层次上标签ROI标签面板。集标签名称VUV,设置数据类型分类,类别表达了无声的

默认情况下,波形查看器显示整个文件。显示缩放和移动工具,悬停在右上角的阴谋。放大前五秒的音频文件。

当您选择一个地区的情节,然后悬停在两个ROI酒吧、该地区出现的影子。指定所选区域的类别表达了,点击一个SpeechContent标签栏。悬停在VUV标签栏,然后单击阴影和选择表达了

接下来的两个词,“两”和“三”,同时包含语音浊音和清音的。选择每个地区的言论情节,盘旋在VUV标签栏,选择正确的类别。

导出标签定义

您可以导出标签定义作为垫文件或MATLAB脚本。维护标签定义允许用户和会话之间一致的标签。选择出口>标签定义>到文件

标签保存的数组signalLabelDefinition对象。在你的下一个会话,您可以通过选择导入标签定义进口>标签定义>从文件

出口标记音频数据

您可以导出标签信号设置为一个文件或您的工作区。选择出口>标签>到工作空间

音频贴标签机创建一个labeledSignalSet对象命名labeledSet_HHMMSS,在那里HHMMSS是时间中创建的对象是小时,分钟,秒。

labeledSet_104620
labeledSet_104620 = labeledSignalSet属性:来源:{29日×1细胞}NumMembers: 29 TimeInformation:“固有的”标签:[29×4表)描述:“使用labelDefinitionsHierarchy查看标签和sublabels的列表。使用setLabelValue添加数据集。

您创建的标签保存表标签财产。

labeledSet_142356.Labels
ans = 29×4表内容SpeechDetected SpeechContent _________________ VUV ________ * * * ___________ C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ Ambiance-16-44p1-mono-12secs。wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ AudioArray-16-16-4channels-20secs。wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ ChurchImpulseResponse-16-44p1-mono-5secs。wav未知{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\点击- 16 - 44 - p1 - mono - 0.2秒。wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ Counting-16-44p1-mono-15secs。wav演讲{10×2表}{10×2表}{5×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ Engine-16-44p1-stereo-20sec。wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ FemaleSpeech-16-8-mono-3secs。wav演讲{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ FunkyDrums-44p1-stereo-25secs。mp3音乐{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ FunkyDrums-48-stereo-25secs。mp3音乐{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ Heli_16ch_ACN_SN3D。wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ JetAirplane-16-11p025-mono-16secs。wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ Laughter-16-8-mono-4secs。wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ mainstreetone - 24 - 96立体声- 63秒。wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ NoisySpeech-16-22p5-mono-5secs。wav演讲{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\彩虹- 16 - 8 mono - 114秒。wav演讲{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ rainbownoisy - 16 - 8 mono - 114秒。wav演讲{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ randomoscthree - 24 - 96立体声- 13秒。如果音乐{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ RockDrums-44p1-stereo-11secs。mp3音乐{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ RockDrums-48-stereo-11secs。mp3音乐{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ rockguitar - 16 - 44 - p1 -立体声- 72秒。wav音乐{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ rockguitar - 16 - 96立体声- 72秒。flac音乐{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ SoftGuitar-44p1_mono-10mins。ogg音乐{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ SpeechDFT-16-8-mono-5secs。wav演讲{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ TrainWhistle-16-44p1-mono-9secs。wav氛围{0×2表}{0×2表}{0×2表}C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\ Turbine-16-44p1-mono-22secs。wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-44p1-stereo-10secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-1000secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-200secs.wav ambience { 0×2 table} { 0×2 table} {0×2 table} C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WaveGuideLoopOne-24-96-stereo-10secs.aif music { 0×2 table} { 0×2 table} {0×2 table}

相关的文件名保存单元阵列的标签财产。

labeledSet_104620.Source
ans = 29×1单元阵列{“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ Ambiance-16-44p1-mono-12secs样品。wav”} {“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ AudioArray-16-16-4channels-20secs样品。wav”} {“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ ChurchImpulseResponse-16-44p1-mono-5secs样品。wav”} {“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ samples \点击- 16 - 44 - p1 - mono - 0.2秒。wav”} {“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ Counting-16-44p1-mono-15secs样品。wav”} {“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ Engine-16-44p1-stereo-20sec样品。wav”} {“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ FemaleSpeech-16-8-mono-3secs样品。wav”} {“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ FunkyDrums-44p1-stereo-25secs样品。mp3的}{“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ FunkyDrums-48-stereo-25secs样品。mp3的}{“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ Heli_16ch_ACN_SN3D样品。wav”} {“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ JetAirplane-16-11p025-mono-16secs样品。wav”} {“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ Laughter-16-8-mono-4secs样品。wav”} {“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ samples \ mainstreetone - 24 - 96立体声- 63秒。wav”} {“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ NoisySpeech-16-22p5-mono-5secs样品。wav”} {“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ samples \彩虹- 16 - 8 mono - 114秒。wav”} {“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ samples \ rainbownoisy - 16 - 8 mono - 114秒。wav”} {“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ samples \ randomoscthree - 24 - 96立体声- 13秒。aif的}{“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ RockDrums-44p1-stereo-11secs样品。mp3的}{“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ RockDrums-48-stereo-11secs样品。mp3的}{“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ samples \ rockguitar - 16 - 44 - p1 -立体声- 72秒。wav”} {“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ samples \ rockguitar - 16 - 96立体声- 72秒。flac的}{“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ SoftGuitar-44p1_mono-10mins样品。ogg的}{“C: \ Program Files \ MATLAB工具箱\ R2019b \ \音响\ \ SpeechDFT-16-8-mono-5secs样品。wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\TrainWhistle-16-44p1-mono-9secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\Turbine-16-44p1-mono-22secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-44p1-stereo-10secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-1000secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WashingMachine-16-8-mono-200secs.wav' } {'C:\Program Files\MATLAB\R2019b\toolbox\audio\samples\WaveGuideLoopOne-24-96-stereo-10secs.aif' }

准备音频数据存储深度学习工作流程

继续深入学习机器学习或工作流程,使用audioDatastore。使用音频数据存储可以常见的机器学习的应用,应用功能等splitEachLabelsplitEachLabel允许您将数据分为训练集和测试集。

为你创建一个音频数据存储标记信号集。指定音频文件的位置作为第一个参数audioDatastore并设置标签的属性audioDatastore标签属性标记信号的设置。

广告= audioDatastore (labeledSet_104620.Source,“标签”labeledSet_104620.Labels)

广告= audioDatastore属性:文件:{“…\工具箱\音响\ samples \ Ambiance-16-44p1-mono-12secs.wav”;’……\工具箱\音响\ samples \ AudioArray-16-16-4channels-20secs.wav”;“……\工具箱\音响\ \ ChurchImpulseResponse-16-44p1-mono-5secs样品。wav”……和26}标签:29-by-4表AlternateFileSystemRoots: {} OutputDataType:“双”

调用countEachLabel并指定内容表变量来计算文件贴上的数量气氛,音乐,演讲,或未知的

countEachLabel(广告,“TableVariable”,“内容”)
ans = 4×2表内容数______ _____氛围13音乐9演讲6未知1

使用标签的例子音频数据机器学习或深度学习工作流程,见:

另请参阅

||||