当前位置:首页-#AI音频技术频道#行业-正文

AI视频生成声音,这么秒就来了!

恐怕今年这个甲辰龙年春节大家都过的比较普通,但2月16日周四惊天大雷Sora横空出世,大家肯定都被刷屏了。 

甚至马斯克也跟帖说:“gg human 人类输了!”注:gg是网络游戏用语“good games”的缩写,主要用于游戏结束后,输赢双方都可以用。但现在多由失败方发出,表示认赌服输、心服口服的意思。在马斯克帖子的评论区里,还有用户附和道:“gg hollywood”。

作为OpenAI的首个文生视频大模型,国内各个大V也站出来发声,但电影人站出来的并不多,可能意见领袖们大都持观望态度,一分钟的视频过场片段对于90分钟的电影故事还是要走很长的路(虽然可能时间很快),尤其对于我们声音人来说更是有点冷观世界的意味,声音是电影的50%,一堆静默的视频难道还不是要指着声音人来为作品填充,似乎影视声音人的工作要更多了?!

 

可是,今天,2月19日,AI语音领先技术公司“ll ElevenLabs 11实验室”就发布了让声音人们洞心骇耳的视频,先来看:

 

 
“Sora的宣布让我们大吃一惊,但我们觉得它需要一些东西。。。如果你能描述这个声音并用人工智能生成它呢?”

其实在2月16日当日,ElevenLabs就转载了用它们的AI引擎生成了Sora视频的音乐,虽然反应速度极快但反响一般。

 

基于AI的音乐生成现在很多,我们就介绍过不少,但声音生成目前看只局限在语音生成阶段,甚至苹果发布的Vision Pro里面的声音都是声音设计师花了大量时间去蹲守录音的。所以今天这个ElevenLabs的Sora声音还是一个重磅炸弹!虽然这个生成声音还是基于人类操作的“文字生声音”,需要人工根据Sora的视频进行观影,然后通过人工描述文字转换成音频,但这也是AI生成历史的一大步。

来自英伟达NVIDIA的高级研究科学家兼人工智能代理负责人,斯坦福博士Jim Fan在它的社交媒体分析了最终视频生成声音的方式方法,以下文字来自Jim Fan的社交媒体上自己的中文部分(但应该是自动翻译的)

unmute不再静音

Sora 现在获得合成音频。它是由文本提示的,但正确的条件应该是文本和视频像素生成。学习准确的视频>音频映射还需要在潜在空间中模拟一些*隐式*物理。以下是 end2end 变换需要弄清楚的内容,以便正确模拟声波:

  1. 确定每个对象的类别、材料和空间位置。
  2. 识别物体之间的高阶相互作用:棍子是撞击木制、金属还是鼓表面?以什么速度?
  3. 识别环境:餐厅?空间站?黄石?日本神社?
  4. 从模型的内部存储器中检索物体和周围环境的典型声音模式。
  5. 运行“软”,学习物理规则来拼凑和调整声音模式的参数,甚至可以即时合成全新的参数。有点像游戏引擎中的“程序音频”。
  6. 如果场景繁忙,模型需要根据空间位置叠加多个音轨。

以上都不是显式模块!所有这些都将通过大量(视频、音频)的梯度下降来学习,这些对在大多数互联网视频中自然是时间对齐的。注意力层将在其权重中实现这些算法,以满足扩散目标。

人类目前还没有这么高质量的 AI 音频引擎。

目前登陆到ElevenLabs官网还是AI语音生成、AI克隆语音等这些大家都比较熟悉的内容,但现在可以提前免费注册,等待新的“文字生声音”的功能推出,我们已经把注册网址放到同期录音网 locationsound.cn网站,或点击阅读原文登陆获得注册链接。

ElevenLabs注册地址:https://form.typeform.com/to/gg0xzZW4?typeform-source=t.co

以上就是今天AI声音的内容,看来视频生成声音也并不远了,讨论还在继续,我们还在复杂的心情中,现在不想用我们的观点去影响大家,我们就不评论了,大家可以在下面留言自由的发声。

它真的来了!作为影视人、声音人你的看法呢?

更多AI声音制作相关内容,请访问我们AI栏目 https://www.locationsound.cn/aiaudio