谷歌V2A视频生成音频工具的能力分析
如果你看过OpenAI的Sora等AI视频生成器的视频片段,你会注意到这些视频都没有附带声音,但谷歌的DeepMind研究实验室可能已经找到了解决方案。
谷歌推出了其视频到音频(V2A)技术,表示已经开发出一种工具,可以利用视频的像素生成同步音频。编辑人员还可以根据需要插入语言文本提示。
谷歌发布了一系列使用其AI视频生成器Veo制作的示例视频,然后使用V2A工具“匹配角色和音调”。
然而,V2A技术不仅可用于AI视频:谷歌DeepMind研究人员表示,它还可以用于传统素材,“包括档案资料、无声电影等”。
V2A显然可以为“任何视频输入生成无限数量的音轨”。虽然文本提示可以用来引导音频输出,使用正面提示或负面提示,后者会使音频偏离某种音调或风格。
DeepMind在一篇博客文章中写道:“这种灵活性让用户能够更好地控制V2A的音频输出,从而可以快速尝试不同的音频输出并选择最佳匹配。”
为了构建其模型,谷歌研究人员在自回归架构上采用了“基于扩散的方法”。V2A系统将视频输入编码为压缩表示形式,然后扩散模型从随机噪声中构建音频,这一过程由视频中的视觉元素引导。然后,音频输出被解码,转换成音频波形,并与视频数据相结合。
一张图表展示了使用AI进行视频到音频转换的过程。视频像素和正面/负面提示分别进行编码,通过扩散模型进行处理,压缩,解码,并最终输出为音频波形。
谷歌表示,它训练该模型时使用了视频、音频和额外的注释,这些注释有助于模型理解视觉事件和音频声音之间的联系。
研究人员认为他们的模型是新颖的,因为V2A技术可以理解原始像素,而文本提示是可选的。
“此外,该系统不需要手动将生成的声音与视频对齐,这涉及繁琐地调整声音、视觉和时序的不同元素,”它补充道。
然而,由于音频输出的质量取决于视频输入的质量,因此存在一些限制。视频失真或其他不需要的伪影将对音频质量产生影响。
唇形同步对于AI视频创作者来说可能极其有益,但听起来V2A模型还没有掌握这一技术,因为该模型“无法根据转录本进行条件设置”。
对于视频编辑人员来说,这听起来是一个令人着迷的工具。但目前,它将仅限于DeepMind研究人员使用,他们希望它在进行“严格的安全评估和测试”后再向更广泛的公众开放。
DeepMind没有提及V2A工具是如何进行训练的,但正如Tech Radar所指出的,谷歌拥有世界上最大的视频分享平台YouTube,这为其带来了潜在的优势。