想象一下管风琴发出的轰隆隆的和弦在巨大的石头大教堂的海绵状圣殿中回荡。
去大教堂的人会听到的声音受许多因素的影响,包括管风琴的位置、听众站立的位置、它们之间是否有任何柱子、长椅或其他障碍物、墙壁是由什么制成的、窗户或门口等。听到声音可以帮助人们想象他们的环境。
麻省理工学院和 MIT-IBM 沃森人工智能实验室的研究人员也在探索使用空间声学信息来帮助机器更好地想象他们的环境。他们开发了一种机器学习模型,可以捕捉房间中的任何声音如何在空间中传播,从而使模型能够模拟听众在不同位置听到的声音。
通过准确地模拟场景的声学效果,系统可以从录音中学习房间的基本 3D 几何形状。研究人员可以使用他们的系统捕获的声学信息来构建房间的准确视觉渲染,类似于人类在估计物理环境属性时使用声音的方式。
除了在虚拟现实和增强现实中的潜在应用外,这项技术还可以帮助人工智能代理更好地了解他们周围的世界。例如,通过对其环境中声音的声学特性进行建模,水下探索机器人可以感知比仅靠视觉更远的事物,电气工程与计算机科学系的研究生 Yilun Du 说。 EECS)和描述该模型的论文的合著者。
“到目前为止,大多数研究人员只关注视觉建模。但作为人类,我们有多模态感知。不仅视觉很重要,声音也很重要。我认为这项工作为更好地利用声音来模拟世界开辟了一个令人兴奋的研究方向,”杜说。
与 Du 一起发表论文的是主要作者 Andrew Luo,他是卡内基梅隆大学 (CMU) 的研究生;Michael J. Tarr,CMU 认知与脑科学 Kavčić-Moura 教授;和资深作者 Joshua B. Tenenbaum,麻省理工学院脑与认知科学系教授,计算机科学与人工智能实验室 (CSAIL) 成员;Antonio Torralba,Delta Electronics 电气工程和计算机科学教授,CSAIL 成员;以及 MIT-IBM Watson AI Lab 的首席研究人员 Chuang Gan。该研究将在神经信息处理系统会议上发表。
声音和视觉
在计算机视觉研究中,一种称为隐式神经表示模型的机器学习模型已被用于从图像中生成平滑、连续的 3D 场景重建。这些模型利用神经网络,其中包含互连节点或神经元的层,它们处理数据以完成任务。
麻省理工学院的研究人员使用相同类型的模型来捕捉声音如何在场景中连续传播。
但他们发现视觉模型受益于一种称为光度一致性的特性,该特性不适用于声音。如果一个人从两个不同的位置看同一个物体,这个物体看起来大致相同。但是对于声音,改变位置和听到的声音可能会因障碍物、距离等而完全不同。这使得预测音频非常困难。
研究人员通过将声学的两个特性纳入他们的模型来克服这个问题:声音的互惠性质和局部几何特征的影响。
声音是相互的,这意味着如果声音的来源和听者交换位置,则人听到的内容不会改变。此外,人们在特定区域听到的声音很大程度上受当地特征的影响,例如听众和声源之间的障碍物。
为了将这两个因素整合到他们的模型中,称为神经声场 (NAF),他们用一个网格来增强神经网络,该网格可以捕捉场景中的物体和建筑特征,如门口或墙壁。该模型随机采样该网格上的点以学习特定位置的特征。
“如果你想象站在门口附近,最能影响你听到的声音的是那个门口的存在,不一定是房间另一边离你很远的几何特征。我们发现,与简单的全连接网络相比,这些信息能够实现更好的泛化,”罗说。
从预测声音到可视化场景
研究人员可以向 NAF 提供有关场景的视觉信息和一些频谱图,这些频谱图显示了当发射器和听者位于房间周围的目标位置时一段音频的声音。然后,该模型会预测如果听者移动到场景中的任何点,该音频听起来会是什么样子。
NAF 输出一个脉冲响应,它捕捉声音在场景中传播时应该如何变化。然后,研究人员将这种脉冲响应应用于不同的声音,以了解当一个人穿过房间时这些声音应该如何变化。
例如,如果房间中央的扬声器正在播放一首歌曲,他们的模型会显示当一个人靠近扬声器时声音如何变大,然后当他们走进相邻的走廊时声音变得沉闷。
当研究人员将他们的技术与其他模拟声学信息的方法进行比较时,它在每种情况下都生成了更准确的声音模型。而且因为它学习了局部几何信息,他们的模型能够比其他方法更好地泛化到场景中的新位置。
此外,他们发现将他们的模型学习到的声学信息应用于计算机视觉模型可以更好地重建场景的视觉效果。
“例如,当您只有一组稀疏的视图时,使用这些声学特征可以让您更清晰地捕捉边界。这可能是因为要准确渲染场景的声学效果,您必须捕捉该场景的底层 3D 几何图形,”Du 说。
研究人员计划继续增强该模型,使其可以推广到全新的场景。他们还希望将此技术应用于更复杂的脉冲响应和更大的场景,例如整个建筑物甚至城镇或城市。
“这项新技术可能会为在元节应用程序中创建多模态沉浸式体验开辟新的机会,”Gan 补充道。
“我的团队在使用机器学习方法加速声学仿真或模拟真实世界场景的声学方面做了大量工作。Chuang Gan 和他的合著者的这篇论文显然是朝着这个方向迈出的重要一步,”马里兰大学计算机科学和电气与计算机工程教授 Dinesh Manocha 说工作。“特别是,本文介绍了一种很好的隐式表示,它可以通过使用线性时不变系统对其进行建模来捕捉声音在现实世界场景中的传播方式。这项工作可以在 AR/VR 以及现实世界场景理解方面有很多应用。”
这项工作部分得到了 MIT-IBM Watson AI 实验室以及天桥和陈慧娴研究所的支持。
注:本文由院校官方新闻直译,仅供参考,不代表指南者留学态度观点。