AI视频生成声音，这么秒就来了！

恐怕今年这个甲辰龙年春节大家都过的比较普通，但2月16日周四惊天大雷Sora横空出世，大家肯定都被刷屏了。

甚至马斯克也跟帖说：“gg human 人类输了！”

注：gg是网络游戏用语“good games”的缩写，主要用于游戏结束后，输赢双方都可以用。但现在多由失败方发出，表示认赌服输、心服口服的意思。在马斯克帖子的评论区里，还有用户附和道：“gg hollywood”。

作为OpenAI的首个文生视频大模型，国内各个大V也站出来发声，但电影人站出来的并不多，可能意见领袖们大都持观望态度，一分钟的视频过场片段对于90分钟的电影故事还是要走很长的路（虽然可能时间很快），尤其对于我们声音人来说更是有点冷观世界的意味，声音是电影的50%，一堆静默的视频难道还不是要指着声音人来为作品填充，似乎影视声音人的工作要更多了？！

可是，今天，2月19日，AI语音领先技术公司“ll ElevenLabs 11实验室”就发布了让声音人们洞心骇耳的视频，先来看：

“Sora的宣布让我们大吃一惊，但我们觉得它需要一些东西。。。如果你能描述这个声音并用人工智能生成它呢？”

其实在2月16日当日，ElevenLabs就转载了用它们的AI引擎生成了Sora视频的音乐，虽然反应速度极快但反响一般。

基于AI的音乐生成现在很多，我们就介绍过不少，但声音生成目前看只局限在语音生成阶段，甚至苹果发布的Vision Pro里面的声音都是声音设计师花了大量时间去蹲守录音的。所以今天这个ElevenLabs的Sora声音还是一个重磅炸弹！虽然这个生成声音还是基于人类操作的“文字生声音”，需要人工根据Sora的视频进行观影，然后通过人工描述文字转换成音频，但这也是AI生成历史的一大步。

来自英伟达NVIDIA的高级研究科学家兼人工智能代理负责人，斯坦福博士Jim Fan在它的社交媒体分析了最终视频生成声音的方式方法，以下文字来自Jim Fan的社交媒体上自己的中文部分（但应该是自动翻译的）

unmute不再静音

Sora 现在获得合成音频。它是由文本提示的，但正确的条件应该是文本和视频像素生成。学习准确的视频>音频映射还需要在潜在空间中模拟一些*隐式*物理。以下是 end2end 变换需要弄清楚的内容，以便正确模拟声波：

确定每个对象的类别、材料和空间位置。
识别物体之间的高阶相互作用：棍子是撞击木制、金属还是鼓表面？以什么速度？
识别环境：餐厅？空间站？黄石？日本神社？
从模型的内部存储器中检索物体和周围环境的典型声音模式。
运行“软”，学习物理规则来拼凑和调整声音模式的参数，甚至可以即时合成全新的参数。有点像游戏引擎中的“程序音频”。
如果场景繁忙，模型需要根据空间位置叠加多个音轨。

以上都不是显式模块！所有这些都将通过大量（视频、音频）的梯度下降来学习，这些对在大多数互联网视频中自然是时间对齐的。注意力层将在其权重中实现这些算法，以满足扩散目标。

人类目前还没有这么高质量的 AI 音频引擎。

目前登陆到ElevenLabs官网还是AI语音生成、AI克隆语音等这些大家都比较熟悉的内容，但现在可以提前免费注册，等待新的“文字生声音”的功能推出，我们已经把注册网址放到同期录音网 locationsound.cn网站，或点击阅读原文登陆获得注册链接。

ElevenLabs注册地址：https://form.typeform.com/to/gg0xzZW4?typeform-source=t.co

以上就是今天AI声音的内容，看来视频生成声音也并不远了，讨论还在继续，我们还在复杂的心情中，现在不想用我们的观点去影响大家，我们就不评论了，大家可以在下面留言自由的发声。

它真的来了！作为影视人、声音人你的看法呢？

更多AI声音制作相关内容，请访问我们AI栏目 https://www.locationsound.cn/aiaudio

{{userData.name}}