使用 Meta 的全新 Audiobox 用AI创建独特的声音
Facebook 母公司Meta推出了名为Audiobox的最新的AI音频生成人工智能模型,可让用户将文本转换为声音。
只需描述您想听到的内容,文本转音频模型就会将其转换为请求的声音。Audiobox 是Voicebox音频生成模型的后继者,它采用自然语言进行提示。
例如,您可以输入“一只海狸正在咀嚼一片菠萝”或“一位年轻女子在教堂内说话”,模型就会生成所需的声音。
您可以在 Meta 的研究网站上收听一些AudioBox 音频样本。
Audiobox 还可以处理音频输入,因此用户可以将语音输入和文本提示结合起来,以更好地合成音频。这让用户可以指定他们想要生成的语音风格和声音效果——这是模型的早期版本中没有的功能。“当语音输入和文本提示一起使用时,语音输入可以锚定音色,文本提示可以用来改变其他方面,”Meta 表示。
Meta 表示,Audiobox 可用于为播客和有声读物等媒体制作优质音频。因此,用户可以创建音频,否则“需要访问广泛的声音库以及深厚的领域专业知识才能产生最佳结果 – 公众甚至业余爱好者可能不具备的专业知识”,研究人员写道。
Meta 表示,像新的 Audiobox 这样的音频生成系统将“降低音频创作的门槛,让任何人都可以轻松成为音频内容创作者。”
“创作者可以使用 Audiobox 等模型来生成视频或播客的音景、游戏的自定义音效或任何其他用例。”
技术发展很快,其前身 Voicebox在今年6月刚刚上线: Voicebox 第一个生成式语音AI 革命已到来!,可以创建各种风格和语言的语音,并且还可以进行编辑。与 Audiobox 不同,Voicebox无法创建非语音声音。
检测 AI 生成的音频
Audiobox 具有自动音频水印——人工智能模型生成的任何音频都可以被追踪。
Meta 的水印方法将信号嵌入到音频中,该公司称该信号“人耳无法察觉”,但可以检测到帧级别。Audiobox 针对一系列网络攻击进行了测试,但 Meta 的研究人员发现它足够强大,攻击者很难滥用该系统。
即将发布的 Audiobox 演示将具有语音身份验证功能,以防止假冒。
“任何想要向 Audiobox 演示添加语音的人都必须使用自己的声音说出语音提示。提示音会定期、快速地变化,这使得在预先录制的音频中添加其他人的声音变得极其困难。”
Audiobox 并不是唯一具有水印保护功能的音频生成系统。由 Google DeepMind 的新Lyria 模型生成的音频可以通过 SynthID 工具进行检测,水印直接嵌入到 Lyria 输出的音频波形中。
如何访问Audiobox
Voicebox 于6 月首次亮相,但 Meta 由于担心可能被滥用,一反常态地选择不开源该 AI 模型。
Meta 对 Audiobox 也采取了同样的立场,表示“虽然我们认为与 AI 社区保持开放并分享我们的研究以推进 AI 的最新水平非常重要,但也有必要在开放和责任。”
然而,Audiobox 正在向一组精心挑选的研究人员发布。该模型将用于与人工智能相关的语音研究,特别是“解决这项工作中负责任的人工智能方面”。
研究人员还可以申请拨款,利用 Audiobox 进行人工智能安全和责任研究。申请将在“未来几周内”开放。