基于深度学习的HRTF模型优化

发布的Johanna Pingel，2020年5月5日

18次浏览(最近30天 0喜欢| 0评论

今天的帖子来自Sunil Bharitkar，他在惠普实验室人工智能与新兴计算实验室(AIECL)领导音频/语音研究。他将讨论他的研究使用深度学习建模和合成头部相关传递函数(HRTF)使用MATLAB。这项工作已经发表在一篇IEEE论文中，链接在文章的底部。

今天我想谈谈我的研究，这是一个新的方法，如何建模如何从任何方向、任何角度使用深度学习合成声音。

空间音频速成课程

这项研究的一个重要方面是声音的本地化。这是研究相当广泛的音频应用，涉及到我们人类如何听到和理解声音来自何处。这将因人而异，但通常与每只耳朵的延迟（低于~800 Hz）和频率大于~800 Hz时单个耳朵的频谱细节有关。这些主要是我们每天用来定位声音的线索（例如，请参见鸡尾酒会效应).

下图显示了头部相关脉冲响应在人体受试者两耳道入口处的消声室中测量（左图），以及傅里叶域表示，即。，与头部相关的传递函数（右图），该图显示了人类如何在可听频率中的特定位置（例如，向左和向前45度，仰角0度）通过双耳听到声音。

如果我们看这幅图，你可以看到，当一个声音从中心向45度的方向播放时，左耳的声音在这个角度的振幅比右耳的高。图中还嵌入了左右耳到达时间的差异，只有几毫秒的差异会对我们感知声音的位置产生重要影响。潜意识中，我们根据光谱和延迟的差异来解释声源的位置。

与此相比，从人身后180度角传来的声音:

左右耳的频谱细节在所有频率下几乎相同，因为声源与双耳的距离基本相等。对于180度角的声源，到达时间的差异将是微不足道的。这些差异（或缺乏差异）有助于我们确定声音的来源。

我们非常擅长在某些频率下对声音进行定位，而在其他频率上则不如*。这取决于声音的频率和位置。

*有趣的是，人类并不擅长判断声音是否从特定角度(例如，在混淆锥中)。如果我们感到困惑，帮助定位的最好方法是转动我们的头，试图优化左耳和右耳之间的差异。我相信你现在很好奇，想在家里非正式地尝试一下这个实验，下次警报响起的时候。

这项研究有许多应用，其中声音的定位是至关重要的。例如在电子游戏设计或虚拟现实中，声音必须与视频相匹配才能获得真正的沉浸式体验。为了让声音与视频匹配，我们必须在用户周围的期望位置匹配双耳的期望线索。

这项研究的许多方面使其成为一个具有挑战性的问题：

人类非常擅长识别声音的差异，这些差异会让用户觉得是虚假的，从而导致体验不真实。
头部相关的传递函数对于不同角度的人是不同的。
每个HRTF取决于方向，并且对于任何给定的人，每个角度都会有所不同。

图3显示了每个人的HRTF因人而异的示例：

我们的解剖结构和听觉是每个人都拥有的独特品质。要100%确信声音对人来说是完美的，唯一的办法就是在消声室中测量他们的个性化头部相关传递函数。这是非常不切实际的，因为我们的目标是为消费者提供最少的设置时间。这就引出了我研究的主要方面：

我们能否使用深度学习从各个角度来近似HRTF，为大量听众提供真正的体验?

当前技术状态与我们的新方法

你可能会问"如果每个人都是不同的，为什么不取所有图的平均值并创建一个平均HRTF呢"对此，我说"如果取平均值，你就会得到一个平均值"深度学习能帮助我们提高平均水平吗?

在我们的研究之前，进行该分析的主要方法是对一组人进行HRTF建模的主成分分析。在过去，研究人员已经发现了5或6个成分，它们可以用于一个大约20名受试者的小测试集([1][2][3])，但我们希望在更大的数据集和更多的角度上进行泛化。

我们将展示一种利用深度学习的新方法。我们将把这个应用到一种自动编码器方法中，使用非线性函数学习hrtf的低维表示(潜在表示)，然后使用另一个网络(在本例中是广义回归神经网络)将角度映射到潜在表示。我们从一个包含1个隐藏层的自动编码器开始，然后通过使用验证度量(对数谱失真度量)进行贝叶斯优化，优化隐藏层的数量和GRNN中高斯RBF的传播。下一节将展示这种新方法的详细信息。

新方法

对于我们的方法，我们使用的是IRCAM数据集，该数据集由49个受试者组成，每个受试者有115个声音方向。我们将使用自动编码器模型，并将其与主成分分析模型进行比较（这是一个以PC数量为条件的线性最优解）我们将使用对数谱失真度量进行客观比较，以比较性能。

数据设置

正如我提到的，数据集有49个主题，115个角度，每个HRTF都是通过计算1024个频率单元的FFT来创建的。问题陈述：我们能为每个角度找到一个HRTF表示，使该角度在所有主题上的拟合最大化吗？我们本质上是在所有主题上寻找最佳的泛化，例如e115个角中的每一个。

我们还对深度学习模型使用了超参数调优(bayesopt)。

Autoencoder方法:

我们取整个HRTF数据集(1024X5635)并训练自动编码器。隐藏层的输出为您提供了输入数据的紧凑表示。我们取这个自动编码器，提取这个表示然后用广义RNN把它映射回角度。我们还为每个角度和每个主题添加抖动或噪声。这将有助于网络泛化而不是过度拟合，因为我们不是在寻找完美的答案(这是不存在的!)，而是最适合所有测试对象的泛化。
贝叶斯优化用于:
- 自动编码器网络的大小(层数)
- 抖动/噪声方差添加到每个角度
- GRNN的RBF扩散