深度学习

理解和使用深度学习网络

优化电火花冲激与深度学习模型

今天的文章来自Sunil Bharitkar领导音频/语音研究人工智能和新兴计算实验室(AIECL)在惠普实验室。他将讨论他的研究使用深度学习模型和合成head-related转移(电火花冲激)使用MATLAB函数。这项工作已经发表在IEEE论文,与底部的职位。
今天我想讨论我的研究,其重点是如何合成新方法模型的声音从任何方向的角度使用深度学习。

空间音频的速成课

这项研究的一个重要方面是在声音的定位。这是音频应用程序和研究相当广泛涉及到我们如何作为人类听到和理解声音来自哪里。这个人会有所不同,但它通常与延迟相对于每只耳朵(~ 800 Hz以下)和光谱信息在频率大于个人的耳朵~ 800赫兹。这些主要是暗示我们每天使用本地化的声音(例如看到鸡尾酒会效应)。
下面是数据显示Head-Related脉冲响应测量在消声室的入口处两耳道的人类主体(图左),和傅氏域表示。Head-related的传递函数(图),它显示了人类在两只耳朵听到声音在某一位置(例如,左侧45度和前和海拔0度)的声音频率。
如果我们看这个图,你可以看到,当一个声音是在一个方向45度的中心,左耳的声音在这个角振幅比是正确的。也嵌入在这个情节是到达时间的差异之间的左和右耳朵,只有几毫秒的不同可以有重要影响我们感知声音的地方。在潜意识里,我们解释声源的位置根据这种差异在光谱和延迟。
比较这声音来了180度背后人类:
左、右耳的光谱的细节几乎是相同的频率,由于声源是大幅与两耳距离相等。到达时间的差异将微不足道的声音源在180度。这些差异(或缺乏)是帮助我们确定声音来自哪里。
我们非常擅长本地化的声音在特定的频率,而不是善于他人*。这取决于频率和声音的位置。
*有趣的是,人类并不擅长判断声音在某些角度(如锥的混淆)。最好的方法我们可以帮助定位如果我们感到困惑是头试图优化左、右耳之间的差异。我相信你现在想试试这个实验下哔哔火警非正式地在家里与你的。
这项研究有许多应用程序本地化的声音是至关重要的。一个例子是在游戏设计中,或虚拟现实,声音必须匹配的视频一个真正身临其境的体验。声音与视频,我们必须匹配预期为双耳线索用户期望的位置。
有许多方面的研究使得这一个具有挑战性的问题解决:
  • 人类声音非常善于发现差异,会出现假和导致不到真正的用户体验。
  • 头相关传输函数在各个角度对不同的人是不同的。
  • 每个电火花冲激是依赖于方向和在每个角对于任何给定的人会有所不同。
图3显示了作为一个例子如何每个人的电火花冲激不同人:
我们的躯体和听力是一个独特的质量为自己每个人都有。的唯一方法是100%自信的声音将是完美的一个人将是衡量他们个性化的头相关传递函数在消声室。这是非常不现实的,因为我们的目标是至少设置时间消费。这使我们研究的主要方面:
我们可以使用深度学习近似一个电火花冲激多角度为大量听众真正的体验吗?

当前状态的艺术与我们的新方法

你可能会问的问题是“如果每个人都是不同的,为什么不把所有的情节的平均值并创建一个普通电火花冲激?”,我说“如果你取平均,你只是平均的结果。“深度学习可以帮助我们提高平均?
我们的研究之前,执行这一分析的主要方法是主成分分析电火花冲激建模的一组人。在过去,研究人员发现5或6组件推广以及他们可以用于一组小测试的大约20个科目([1][2][3])但是我们想概括在一个更大的数据集和更多的角度。
我们将显示一个使用深度学习的新方法。我们要把这个应用到一个autoencoder方法学习(潜在的代表)的低维表示头使用非线性函数,然后使用另一个网络(在这种情况下广义回归神经网络)角度映射到潜在的表示。我们开始的autoencoder 1隐藏层,然后我们优化隐藏层的数量和GRNN的高斯RBF的传播通过贝叶斯优化与验证指标(log-spectral失真度量)。下一节将介绍这种新方法的细节。

新方法

对于我们的方法,我们使用的是IRCAM数据集,由49个科目115每学科方向的声音。我们将使用一个autoencoder模型和比较这对主成分分析模型,(这是一个线性最优解条件PC)的数量,我们将比较结果使用目的比较使用日志光谱失真指标比较性能。

数据设置

正如我提到的,数据集有49个科目,115角度和电火花冲激是由计算FFT频率超过1024箱。问题陈述:我们能找到一个电火花冲激表示最好的每个角最大化这个角的适合所有科目吗?我们实际上是寻找最好的泛化,在所有科目,为每个115角度。
  • 我们也使用hyperparameter调优(bayesopt)深度学习模型。
Autoencoder方法:
  • 我们把整个电火花冲激数据集(1024 x5635)和训练autoencoder。隐层的输出给你输入数据的一个紧凑的表示。我们autoencoder,提取表征,然后地图使用广义RNN回角。我们还添加抖动或噪音,我们添加为每个角度和为每个主题。这将有助于网络推广而不是overfit,因为我们不是寻找完美的答案(这并不存在!),而泛化,最适合所有测试对象。
  • 贝叶斯优化用于:
    • autoencoder网络的大小(层数)
    • 抖动和噪声方差添加到每个角
    • GRNN的RBF传播

结果

我们优化Log-spectral失真测定结果:
这个公式表示,对于一个给定的用户在给定角度和某些频率本,比较实际的振幅与网络的响应。
主成分分析,我们发现,10个人电脑是一个公平的比较我们的模型(如下图所示),因为这允许这个大型数据集的最正确的方法。

选择PCA-order(横坐标:没有。的电脑,纵坐标:解释方差),(a)左耳(b)右耳)

这是一个随机抽样测试对象,给定角度,显示结果之间的AE方法和主成分分析。你可以看到在大多数情况下,您可以看到使用深度学习方法显著改善。

左耳的例子使用电火花冲激重建比较AE-model(绿色)相比,真正的电火花冲激(蓝色)。PCA模型作为锚和红色所示。

另外一个很好的可视化我创建了清楚地显示了模型之间的区别:
比较了两种模型使用log-spectral失真(dLS)为每一个角度和每个用户。一个绿色框表明dLS低于PCA(低更好)。和蓝色是基于主成分分析的方法优于autoencoder的地方。正如您可以看到的,在大多数情况下,AE编码器优于PCA。AE方法并非100%更好,但肯定一个更好的结果。
总之,我们显示一个新的深度学习方法显示显著改善代表一个大试库头在最先进的PCA方法。我们正在继续测试更大的数据集,我们继续看到重现的结果即使在大的数据集的大小,所以我们有信心这种方法产生一致的结果。
如果你想了解更多关于这个主题,整个论文的联系,获得了优秀论文奖的IEEE在这里https://ieeexplore.ieee.org/document/8966196

引用

[1],d·基斯特勒公司和f·怀特曼”head-related传递函数的模型基于主成分分析和最小相位重建,”j . Acoust。Soc。阿米尔。,vol. 91(3), 1992, pp. 1637-1647.
[2]w·马顿斯”,主成分分析和再合成光谱信号的方向,“Proc, Intl。广告样稿,亩。相依,1987年,页274 - 281。
[3]j . Sodnik a . Umek r . Susnik g . Bobojevic和美国境内,“Head-related转移函数的表示与主成分分析,“音响、2004年11月。
|
  • 打印
  • 发送电子邮件

评论

要发表评论,请点击此处登录到您的MathWorks帐户或创建一个新帐户。