基于深度学习的HRTF模型优化

著者Johanna Pingel，2020年5月5日

28ビュ(過去30日間)| . 0いいね| 0コメント

今天的文章来自Sunil Bharitkar，他是惠普实验室人工智能与新兴计算实验室(AIECL)音频/语音研究的负责人。他将讨论他的研究，使用MATLAB使用深度学习建模和合成头部相关传递函数(HRTF)。这项工作已经发表在IEEE论文中，链接在文章的底部。

今天我想讨论一下我的研究，重点是一种新的方法来模拟如何使用深度学习从各个角度合成任何方向的声音。

空间音频速成班

这项研究的一个重要方面是声音的定位。这在音频应用中得到了广泛的研究，与我们人类如何听到和理解声音的来源有关。这因人而异，但通常与每只耳朵(低于~ 800hz)的延迟和频率大于~ 800hz时每只耳朵的频谱细节有关。这些主要是我们在日常工作中用来定位声音的线索鸡尾酒会效应）.

下图显示的是头部相关冲动反应在人类受试者的双耳道入口的消声室中测量(左图)，以及傅里叶域表示，即头部相关传递函数(右图)，它显示了人在可听到频率的特定位置(例如，向左和正面45度，仰角0度)的双耳是如何听到声音的。

如果我们看这个图，你可以看到当一个声音在离中心45度的方向上播放时，左耳的声音在这个角度上的振幅比右耳高。在这个图中还包含了左右耳到达时间的差异，其中只有几毫秒的差异就会对我们感知声音的位置产生重要影响。我们下意识地根据频谱和延迟的差异来解释声源的位置。

将这个声音与人类身后180度的声音进行比较:

左耳和右耳的频谱细节在所有频率上几乎相同，因为声源基本上与两只耳朵的距离相等。对于180度的声源，到达时间的差异是不显著的。这些差异(或缺乏差异)帮助我们确定声音的来源。

我们非常擅长在特定频率下定位声音，而在其他频率上则不太擅长*。这取决于声音的频率和位置。

*有趣的是，人类不太擅长确定声音是否在特定的角度(例如，在混淆锥体中)。如果我们感到困惑，我们能帮助定位的最好方法是转动我们的头，试图优化左右耳之间的差异。我敢肯定，你现在很好奇，想在下次火警响起的时候，在家里非正式地尝试这个实验。

这项研究有许多应用，其中声音定位是至关重要的。一个例子是在电子游戏设计或虚拟现实中，声音必须与视频相匹配，才能获得真正的沉浸式体验。为了使声音与视频相匹配，我们必须在用户周围的理想位置上为两只耳朵匹配预期的线索。

这项研究的许多方面使其成为一个具有挑战性的问题:

人类非常善于发现声音中的差异，这些差异看起来是假的，会给用户带来不真实的体验。
头部相关的传递函数在各个角度上对不同的人是不同的。
每个HRTF都是方向相关的，对任何特定的人来说，每个角度都会有所不同。

图3举例说明了每个人的HRTF因人而异:

我们的解剖结构和听觉是每个人都拥有的独特品质。要百分百确定这种声音对一个人来说是完美的，唯一的方法就是在消声室中测量他们的头部相关传递函数。这是非常不切实际的，因为我们的目标是为消费者提供最少的设置时间。这就引出了我研究的主要方面:

我们能否利用深度学习来从各个角度近似HRTF，为大量听众提供真实的体验?

目前的技术水平和我们的新方法

你可能会问“如果每个人都不一样，为什么不取所有图的平均值，然后创建一个平均HRTF呢?”对此，我说“如果你取平均值，你只会得到一个平均的结果。”深度学习能帮助我们提高平均水平吗?

在我们的研究之前，执行该分析的主要方法是对一组人进行HRTF建模的主成分分析。在过去，研究人员已经发现5或6个组件被用于大约20个主题的小型测试集([1][2][3])，但我们希望在更大的数据集和更多的角度上进行泛化。

我们将展示一种使用深度学习的新方法。我们将把它应用到使用非线性函数学习hrtf的低维表示(潜在表示)的自编码器方法中，然后使用另一个网络(在这种情况下是广义回归神经网络)将角度映射到潜在表示。我们从1个隐藏层的自编码器开始，然后通过使用验证度量(对数谱失真度量)进行贝叶斯优化，优化隐藏层的数量和高斯RBF在GRNN中的扩散。下一节将详细介绍这种新方法。

新方法

对于我们的方法，我们使用的是IRCAM数据集，该数据集由49个主题组成，每个主题有115个声音方向。我们将使用一个自编码器模型，并将其与主成分分析模型(这是一个以PC数量为条件的线性最优解)进行比较，我们将使用对数光谱失真度量进行客观比较来比较性能。

数据设置

正如我提到的，数据集有49个主题，115个角度，每个HRTF是通过计算1024个频率箱的FFT创建的。问题陈述:我们能否为每个角度找到一个HRTF表示，使该角度与所有主题的拟合最大化?我们本质上是在寻找最好的概化，对于所有的主题，对于115个角度中的每一个。

我们还对深度学习模型使用了超参数调优(bayesopt)。

Autoencoder方法:

我们使用整个HRTF数据集(1024X5635)并训练自动编码器。隐藏层的输出为您提供了输入数据的紧凑表示。我们使用自编码器，我们提取它的表示然后用广义RNN将它映射回角度。我们还为每个角度和每个主题添加抖动或噪音。这将有助于网络泛化而不是过度拟合，因为我们并不是在寻找完美的答案(这是不存在的!)，而是最适合所有测试对象的泛化。
贝叶斯优化用于:
- 自编码器网络的大小(层数)
- 添加到每个角度的抖动/噪声方差
- RBF扩展为GRNN