AI视频生成声音,这么秒就来了!
作为OpenAI的首个文生视频大模型,国内各个大V也站出来发声,但电影人站出来的并不多,可能意见领袖们大都持观望态度,一分钟的视频过场片段对于90分钟的电影故事还是要走很长的路(虽然可能时间很快),尤其对于我们声音人来说更是有点冷观世界的意味,声音是电影的50%,一堆静默的视频难道还不是要指着声音人来为作品填充,似乎影视声音人的工作要更多了?!
可是,今天,2月19日,AI语音领先技术公司“ll ElevenLabs 11实验室”就发布了让声音人们洞心骇耳的视频,先来看:
“Sora的宣布让我们大吃一惊,但我们觉得它需要一些东西。。。如果你能描述这个声音并用人工智能生成它呢?”
其实在2月16日当日,ElevenLabs就转载了用它们的AI引擎生成了Sora视频的音乐,虽然反应速度极快但反响一般。
基于AI的音乐生成现在很多,我们就介绍过不少,但声音生成目前看只局限在语音生成阶段,甚至苹果发布的Vision Pro里面的声音都是声音设计师花了大量时间去蹲守录音的。所以今天这个ElevenLabs的Sora声音还是一个重磅炸弹!虽然这个生成声音还是基于人类操作的“文字生声音”,需要人工根据Sora的视频进行观影,然后通过人工描述文字转换成音频,但这也是AI生成历史的一大步。
来自英伟达NVIDIA的高级研究科学家兼人工智能代理负责人,斯坦福博士Jim Fan在它的社交媒体分析了最终视频生成声音的方式方法,以下文字来自Jim Fan的社交媒体上自己的中文部分(但应该是自动翻译的)
unmute不再静音
Sora 现在获得合成音频。它是由文本提示的,但正确的条件应该是文本和视频像素生成。学习准确的视频>音频映射还需要在潜在空间中模拟一些*隐式*物理。以下是 end2end 变换需要弄清楚的内容,以便正确模拟声波:
- 确定每个对象的类别、材料和空间位置。
- 识别物体之间的高阶相互作用:棍子是撞击木制、金属还是鼓表面?以什么速度?
- 识别环境:餐厅?空间站?黄石?日本神社?
- 从模型的内部存储器中检索物体和周围环境的典型声音模式。
- 运行“软”,学习物理规则来拼凑和调整声音模式的参数,甚至可以即时合成全新的参数。有点像游戏引擎中的“程序音频”。
- 如果场景繁忙,模型需要根据空间位置叠加多个音轨。
以上都不是显式模块!所有这些都将通过大量(视频、音频)的梯度下降来学习,这些对在大多数互联网视频中自然是时间对齐的。注意力层将在其权重中实现这些算法,以满足扩散目标。
人类目前还没有这么高质量的 AI 音频引擎。
目前登陆到ElevenLabs官网还是AI语音生成、AI克隆语音等这些大家都比较熟悉的内容,但现在可以提前免费注册,等待新的“文字生声音”的功能推出,我们已经把注册网址放到同期录音网 locationsound.cn网站,或点击阅读原文登陆获得注册链接。
以上就是今天AI声音的内容,看来视频生成声音也并不远了,讨论还在继续,我们还在复杂的心情中,现在不想用我们的观点去影响大家,我们就不评论了,大家可以在下面留言自由的发声。
它真的来了!作为影视人、声音人你的看法呢?
更多AI声音制作相关内容,请访问我们AI栏目 https://www.locationsound.cn/aiaudio