元宇宙声音最新进展：Meta构建AI模型提供逼真声音！

AI模型将让声音体验更逼真

近日，Meta（原Facebook）宣布其公司构建了三个新的人工智能 (AI) 模型，以使人们在混合现实（AR）和虚拟现实（VR）中获得更加逼真的声音体验。

这三个AI模型是Meta公司团队与德克萨斯大学奥斯汀分校的研究人员合作开发的，分别是：视声匹配Visual-Acoustic Matching、视觉信息去混响Visually-Informed Dereverberation和视觉语音VisualVoice。研究人员表示，他们旨在推动人们“以更快的速度走向更身临其境的现实”。

请看视频：

在元宇宙所设想的未来中，无论是参加虚拟世界的聚会，还是在客厅里通过AR眼镜观看家庭电影，声学都在人们的体验中发挥着重要作用。

Meta研究团队相信人工智能将成为提供逼真音质的核心，于是设计出这三个围绕视听感知的人工智能模型。人们可以戴上 AR 眼镜，重温全息记忆，其外观和声音与他们从有利位置所体验的方式完全相同，或者畅游虚拟游戏时不仅沉浸在图像中，还沉浸在声音世界中。

这些模型将让我们更接近未来所设想的多模态、沉浸式体验。

视听匹配+视觉信息去混响

任何人如果看过音频与场景不一致的视频，都知道这会对人类感知体验造成多大的破坏。然而，从不同环境中获取音频和视频并进行匹配在以前一直是个挑战。

为了解决这个问题，Meta团队创建了一个名为 AViTAR 的自监督视听匹配模型，它可以调整音频以匹配目标图像的空间。自我监督训练目标从网络视频中学习声学匹配。

它的一个未来应用场景是重温过去的记忆。想象一下，能够戴上一副 AR 眼镜并看到一个可以播放与之相关的记忆的对象。例如拿起芭蕾舞短，就能看到你的孩子跳芭蕾舞的全息影像。音频消除了混响，使记忆听起来就像你在某个观众席上所经历的那样。

元宇宙声音最新进展：Meta构建AI模型提供逼真声音！ - 第9张

视觉语音

VisualVoice（视觉语音）通过视觉和听觉来理解语音，这对于改善人类和机器的感知很重要。

在复杂环境中，人们比人工智能更好地理解语音的一个原因是，我们不仅使用耳朵，还使用眼睛。例如，我们可能会看到某人的嘴巴在动，并且直觉地知道我们听到的声音一定来自那个人。这就是为什么 Meta团队正在开发新的对话式 AI 系统的原因，该系统与人类一样，可以识别他们在对话中看到的内容和听到的内容之间的细微关联。

它的学习方式类似于人们掌握新技能的方式——多模态——通过从未标记的视频中学习视觉和听觉线索来实现视听语音分离。

例如，想象一下能够与来自世界各地的同事一起参加元宇宙中的小组会议，随着他们在虚拟空间中移动并加入时，混响和声学会相应地进行调整。视觉语音可以广泛应用于具有挑战性的不同场景的真实世界视频。该模型也能让智能助手听到我们告诉他们的内容，无论在什么情况下——无论是在音乐会上、在拥挤的聚会上还是在任何其他嘈杂的地方。

如果对声音后期制作感兴趣可以加入我们“声音后期”讨论群讨论，加我们的服务微信locationsound，务必先介绍自己。

AI(146)Meta(6)元宇宙(1)

{{userData.name}}

元宇宙声音最新进展：Meta构建AI模型提供逼真声音！

高信噪比 MEMS 麦克风将在生成式AI音频起到关键作用

使用 Meta 的全新 Audiobox 用AI创建独特的声音

第一款AI 合成器Sistema 2.0 版带来新功能和改进

瞬息音宇宙 Pika的AI口形同步与音效生成开放

Ambiq 推出 AI 驱动的耳戴设备语音增强平台

AIGC视频生成PIKA 2.0发布

推荐：Tritik 发布 Visu 免费实时频谱图效果插件

免费包络发生器插件 FILT-R

免费带调制的卷积混响插件

免费开源 Tumult 无干扰纹理化插件至 v1.1.0

United Plugins 发布 HyperspaceCore 免费混响效果插件

免费插件 – Tokyo Dawn Records压缩器

Evergreen Audio 的 Mini Meter 免费轻量级计测插件

OBAM 沉浸式混音插件界面发布

4drX发布立体声混音器免费声像效果插件

EmergenceAudio更新InfiniteCollection免费系列音源

电影《杰出老虎》同期录音人员招募-“生长”声音创作扶持计划

Pro Tools | HD 12.8,将带给你Dolby Atmos®的工作流程

参赛展示-013号 Rycote灵巧 2017中华晒图大赛

在杜比影院看《金刚：骷髅岛》，亲身感受抖森也爱的杜比体验

TASCAM宣布Portacapture X8的1.30版本固件更新

Lawo推出Crystal广播/播客控台

SSG Audio 推出母带处理 AI 插件

常见Pro Tools 错误代码含义及修复（1）

姗姗来迟，Pro Tools 2024.10发布

Kiive Audio 推出重新设计的 NFuse 总线处理器插件

常见Pro Tools 错误代码含义及修复（2）

索尼推出全新MDR-M1封闭式监听专业耳机

预测Apple 2025 年 Mac 电脑发布计划

三款免费混响插件，快下载！

就这么屌，与ChatGTP-4o对话就完成角色配音

第96届奥斯卡获奖公布 Ludwig Göransson 颁奖视频