Google 新AI 技术根据视频像素和文本提示为视频创建声音
文本提示方面很有趣,因为除了能够输入“正面提示”来引导音频朝你想要的方向发展外,还可以添加“负面提示”,告诉 AI 避免某些内容。这意味着你以为任何一段视频生成潜在无限数量的不同音轨。
例如,这段视频是使用提示“在舞台上的一名鼓手,周围是闪烁的灯光和欢呼的人群”生成的。
V2A 利用基于扩散的模型进行音频生成,DeepMind 发现这是生成与视频片段无缝对齐的引人入胜且逼真的音频的最有效方法。该过程首先将视频输入编码为压缩表示。然后,扩散模型在用户提供的视觉数据和自然语言提示的指导下,从随机噪声中迭代细化音频。这允许 V2A 生成与视频所需的情绪、语气和内容非常匹配的音频。
为了进一步提高质量并让用户更好地控制生成的音频,DeepMind 加入了额外的训练数据,例如 AI 生成的音频注释和对话记录。通过从这些额外的上下文中学习,V2A 可以更好地将特定声音与相应的视觉场景相关联,同时还可以响应注释或脚本中提供的信息。
V2A的潜在应用是广泛而多样的。它可用于:
- 为无声电影生成配乐:V2A 可以通过添加动态配乐和音效来增强观看体验,从而为经典无声电影注入新的活力。
- 增强档案素材:通过添加相关音效和对话,可以使历史视频和纪录片更具吸引力和信息量。
- 从头开始创建整部电影:V2A 允许创作者仅使用文本提示和 AI 生成具有完美同步音频和视觉效果的整部电影,从而彻底改变电影制作。
- 提高可访问性:V2A 可用于生成视频的音频描述,使视障人士更容易访问它们。
- 个性化音频体验:V2A 可以允许用户根据自己的喜好自定义现有视频的音频。
然而,V2A 的广泛采用也可能对电影、电视和其他涉及视听制作的行业产生重大影响。如果人工智能能够大规模生成高质量的音频和视频内容,那么人们担心这些领域的人类创作者和专业人士会被取代工作。Deep Mind意识到了这些问题,并致力于采取负责任的人工智能开发方法。
V2A 会与传统音频制作正面交锋
特征 | DeepMind V2A | 传统音频制作 |
速度 | 分钟或小时 | 数天或数周 |
成本 | 可能要低得难以想象 | 比较昂贵 |
灵活性 | 适应性强 | 受限于人类的技能和经验 |
可扩展性 | 轻松处理大量视频 | 耗时费力 |
Google公司致力于收集来自不同创作者和电影制作人的反馈,实施合成水印以防止滥用,并在考虑任何公开发布之前进行严格的安全评估。