深度学习的HRTF模型的优化

张贴了Johanna Pingel.那5月5日，2020年

67意见（过去30天）| 0.喜欢| 0评论

今天的帖子来自Sunil Bharitkar，他在HP实验室中引领了人工智能和新兴Compute Lab（AIECL）的音频/语音研究。他将使用深度学习来讨论他的研究，使用MATLAB来模拟和综合头部相关传递函数（HRTF）。这项工作已在IEEE纸上发布，链接在帖子底部。

今天我想讨论我的研究，它专注于模拟如何使用深度学习的所有角度如何合成声音的新方法。

空间音频的崩溃课程

这项研究的一个重要方面是声音的本地化。这是非常广泛地研究了音频应用，并涉及我们如何听到和理解声音来自的地方。这将改变人员，但它通常与相对于每个耳朵（低于〜800Hz）的延迟（低于〜800 Hz）和频率大于〜800Hz的频率的光谱细节。这些主要是我们每天用于本地化声音的提示（例如，查看鸡尾酒会疗效）。

下面是显示的数字与头相关的脉冲响应在人类对象（左图）的耳状物入口处的AneChice室中测量，以及傅里叶域表示即，头部相关传递函数（右图），它显示了人类在声音频率中的某个位置（例如，45度和0度和0度高度）的耳朵上的声音。

如果我们查看此曲线，您可以看到，当声音在从中心的45度方向播放时，左耳的声音比右侧的幅度更高。在这个剧情中也嵌入的是左耳和右耳之间的到达时间差异，其中差别中只有几毫秒的差异可能对我们感知声音的地方产生重要影响。小心地，我们根据光谱和延迟的这种差异来解释声源的位置。

将此与人类落后180度的声音进行比较：

左耳和右耳的光谱细节在所有频率几乎相同，因为声源与两个耳朵基本等距离。到达时间的差异将在180度时对声音源微不足道。这些差异（或缺乏其）是有助于我们确定声音来自的地方。

我们非常擅长在某些频率下定位声音，而不是对别人的良好*。这取决于声音的频率和位置。

*有趣的是要注意，人类在确定某些角度是否在确定某些角度（例如，在混乱的锥体上）并不是很好。如果我们混淆，我们可以帮助本地化的最佳方式是将我们的脑袋转移到尝试优化左耳和右耳之间的差异。我相信你现在很想在家里尝试这个实验与你的下一个哔哔火警。

这项研究有许多应用声音本地化至关重要的应用。一个例子是视频游戏设计，或虚拟现实，声音必须与视频相匹配，以获得真正的沉浸体验。对于匹配视频的声音，我们必须与用户周围所需位置的耳朵的预期提示匹配。

这项研究有很多方面，这使得这是一个具有挑战性的问题：

人类非常擅长发现声音的差异，这将出现假，并导致对用户的真正经验。
对于各种角度，头部相关传递函数对不同的人不同。
每个HRTF都是依赖的方向，并且对于任何给定的人，每个角度都会变化。

图3显示了每个人的HRTF如何因人的人而异：

我们的解剖和听证会是每个人为自己的独特品质。100％自信的唯一方法是一个人将是一个人将衡量其在一室中的个性化头相关传递函数。这是非常不切实际的，因为我们的目标是为消费者提供最少的设置时间。所以这会给我们带来我研究的主要方面：

我们可以使用深度学习，以近似所有角度的HRTF，以获得大量听众的真正体验吗？

现有技术与我们的新方法

你可能要问的问题是“好吧，如果每个人都不同，为什么不仅仅是占据所有情节的平均值并创造平均hrtf？”为此，我说：“如果你平均，你只会有一个平均结果。”深度学习可以帮助我们平均提高吗？

在我们的研究之前，进行这种分析的主要方法是对一组人的HRTF建模的原理分析。在过去，研究人员发现了5或6个组件，其概括以及它们可以用于大约20个受试者的小型测试集（[1] [2] [3]），但我们希望通过更大的数据集和一个概括大量的角度。

我们将展现使用深度学习的新方法。我们将使用非线性函数来学习HRTFS的较低尺寸表示（潜在表示）的AutoEncoder方法，然后使用另一个网络（在这种情况下，在这种情况下）来映射到潜在表示的角度。我们从一个隐藏图层的AutoEncoder开始，然后我们通过用验证度量进行贝叶斯优化（日志光谱失真度量）来优化隐藏层的数量和Grnn中的高斯RBF的扩展。下一节显示了这种新方法的详细信息。

新的方法

对于我们的方法，我们正在使用IRCAM数据集，该数据集由49个受试者组成，每个受试者115个声音方向。我们将使用AutoEncoder模型，并将其与原理分量分析模型进行比较，（这是一个线性最佳的解决方案，调节在PC的数量上），我们将使用客观比较的结果使用日志光谱失真度量来比较性能。

数据设置

正如我所提到的，数据集具有49个受试者，115个角度，每个HRTF通过计算超过1024频率箱的FFT而创建。问题陈述：我们可以为每个角度找到最佳角度最大化的每个角度的HRTF表示吗？我们基本上寻找115个角度中的每一个对所有科目的最佳概括。

我们还将HyperParameter调整（Bayesopt）用于深度学习模型。

AutoEncoder方法：

我们采取整个HRTF数据集（1024x5635）并培训AutoEncoder。隐藏图层的输出为您提供了紧凑的输入数据表示。我们拍摄AutoEncoder，我们提取该表示，然后使用概括的RNN映射回到角度。我们还添加了我们为每个角度和每个主题添加的抖动或噪音。这将有助于网络概括而不是过度装备，因为我们不寻找完美的答案（这不存在！），而是最适合所有测试对象的概念。
贝叶斯优化用于：
- AutoEncoder网络的大小（图层数量）
- 每个角度添加的抖动/噪声方差
- RBF为GNN传播