元宇宙声音最新进展:Meta构建AI模型提供逼真声音!
元宇宙的声音
AI模型将让声音体验更逼真
近日,Meta(原Facebook)宣布其公司构建了三个新的人工智能 (AI) 模型,以使人们在混合现实(AR)和虚拟现实(VR)中获得更加逼真的声音体验。
这三个AI模型是Meta公司团队与德克萨斯大学奥斯汀分校的研究人员合作开发的,分别是:视声匹配Visual-Acoustic Matching、视觉信息去混响Visually-Informed Dereverberation和视觉语音VisualVoice。研究人员表示,他们旨在推动人们“以更快的速度走向更身临其境的现实”。
请看视频: 在元宇宙所设想的未来中,无论是参加虚拟世界的聚会,还是在客厅里通过AR眼镜观看家庭电影,声学都在人们的体验中发挥着重要作用。
Meta研究团队相信人工智能将成为提供逼真音质的核心,于是设计出这三个围绕视听感知的人工智能模型。人们可以戴上 AR 眼镜,重温全息记忆,其外观和声音与他们从有利位置所体验的方式完全相同,或者畅游虚拟游戏时不仅沉浸在图像中,还沉浸在声音世界中。
这些模型将让我们更接近未来所设想的多模态、沉浸式体验。
视听匹配+视觉信息去混响
任何人如果看过音频与场景不一致的视频,都知道这会对人类感知体验造成多大的破坏。然而,从不同环境中获取音频和视频并进行匹配在以前一直是个挑战。
为了解决这个问题,Meta团队创建了一个名为 AViTAR 的自监督视听匹配模型,它可以调整音频以匹配目标图像的空间。自我监督训练目标从网络视频中学习声学匹配。
它的一个未来应用场景是重温过去的记忆。想象一下,能够戴上一副 AR 眼镜并看到一个可以播放与之相关的记忆的对象。例如拿起芭蕾舞短,就能看到你的孩子跳芭蕾舞的全息影像。音频消除了混响,使记忆听起来就像你在某个观众席上所经历的那样。
视觉语音 VisualVoice(视觉语音)通过视觉和听觉来理解语音,这对于改善人类和机器的感知很重要。
在复杂环境中,人们比人工智能更好地理解语音的一个原因是,我们不仅使用耳朵,还使用眼睛。例如,我们可能会看到某人的嘴巴在动,并且直觉地知道我们听到的声音一定来自那个人。这就是为什么 Meta团队正在开发新的对话式 AI 系统的原因,该系统与人类一样,可以识别他们在对话中看到的内容和听到的内容之间的细微关联。
它的学习方式类似于人们掌握新技能的方式——多模态——通过从未标记的视频中学习视觉和听觉线索来实现视听语音分离。
例如,想象一下能够与来自世界各地的同事一起参加元宇宙中的小组会议,随着他们在虚拟空间中移动并加入时,混响和声学会相应地进行调整。视觉语音可以广泛应用于具有挑战性的不同场景的真实世界视频。该模型也能让智能助手听到我们告诉他们的内容,无论在什么情况下——无论是在音乐会上、在拥挤的聚会上还是在任何其他嘈杂的地方。
如果对声音后期制作感兴趣可以加入我们“声音后期”讨论群讨论,加我们的服务微信locationsound,务必先介绍自己。