Voicebox 第一个生成式语音AI 革命已到来!

摘要:
Meta Platforms (Facebook母公司)推出了 Voicebox,这是一种高级人工智能
(AI) 模型,旨在执行各种语音生成任务。新推出的 Voicebox 能够协助音频编辑、声音采样和塑型等功能应用,就像ChatGPT可以生成文本、Bing 或 Dall-E 2可以生成图像一样。Voicebox 创建多种样式的输出,它可以从头开始创建输出,也可以修改给定的样本。
Meta公司强调了 Voicebox 制作高质量音频剪辑和修改预先录制音频的能力,例如消除不需要的背景噪音,同时保留原始内容和风格。它可以重新创建特定的语音部分,甚至可以在支持的语言中以个人的声音重现文本阅读。Voicebox目前可以生成六种不同语言(英语、法语、德语、西班牙语、波兰语和葡萄牙语)的语音。
在 Voicebox 之前,语音类的生成式人工智能需要使用精心准备的训练数据对每项任务进行特定训练,这是一种自回归的AI模型训练方式,通常要花掉很长时间,我们也报道过:声音人不得不关注 AI人工智能语音技术。不过那一切已经成为过眼烟云,是的,就这么快!Voicebox 使用一种新方法,仅需从原始音频和随附的转录中学习,然后就可以修改给定样本的任何部分。
Voicebox 基于一种称为“流动匹配Flow Matching”的方法,该方法已被证明可以改进扩散模型。Voicebox 在可懂度(5.9% vs. 1.9% 单词错误率)和音频相似度(0.580 vs. 0.681)方面均优于当前最先进的英语模型 VALL-E ,从零样本文本到语音转换,速度提高了 20 倍。对于跨语言风格迁移,Voicebox 的性能优于 YourTTS,将平均单词错误率从 10.9% 降低到 5.2%,并将音频相似度从 0.335 提高到 0.481。

Voicebox 的潜在应用
Meta 设想了这种新的生成式 AI 语音工具在几个方面的应用:
它可用于为元宇宙中的虚拟助手和非玩家角色提供自然的声音
它还可以使视障人士能够听到朋友声音中的书面信息
提高与促进声音制作音轨创建和编辑的功能
能够使用自己的声音以不同语言进行交流
音频编辑方面的突破
这是一次声音制作领域的重大进展,至少短期内将对内容声音制作产品产生翻天覆地的变化。Meta表达了对音频领域进一步探索的兴奋以及其他研究未来进步的潜力。Voicebox 最令人印象深刻的功能之一是它能够编辑和减少音频剪辑中的噪音。人工智能模型可以重新创建被噪音打断的语音部分或替换说错的单词,而无需重新录制整个语音。
“例如下面的视频片段,可以识别被狗叫打断的语音片段,将其裁剪,然后指示Voicebox 重新生成该片段 – 就像用于音频编辑的橡皮擦一样,”
过去在拍摄中有上面这样狗叫的噪音我们采用的方法有几个:重拍,重补录,降噪,ADR等,但这几种方式不仅增添额外不等的制作成本和时间,也难以还原第一现场完美的状态,虽然现在的降噪大部分都基于AI人工智能学习技术,但还是传统降噪方法的延伸,不是生成式的。而从这条视频中AI补充生成了几乎完美的内容,或许不久以后传统降噪和ADR技术都将消失!
Voicebox 代表了生成式人工智能研究又向前迈出了重要一步。它说明了人工智能改变我们与技术以及彼此互动方式的潜力。随着 Meta 继续探索音频领域,期待其他研究人员将如何在这项开创性工作的基础上继续发展。
共享AI负责任的研究
作为第一个多功能的、有效的模式,成功地执行任务,Voicebox可能带来一个生成语音AI的新时代。
Meta同时也认为,生成语音AI有许多令人兴奋的用例,但由于滥用的风险,目前不公开 Voicebox 模型或代码。在Meta的文件中,详细说明如何建立一个高效的分类,可以区分真实的言论和AI所产生的与Voicebox声音,以减轻这些可能的未来风险。
