芯片巨头英伟达推出的AI音频生成器 Fugatto,颠覆音乐和声音制作AI工具
来自英伟达的生成式人工智能研究团队打造了一把声音的“瑞士军刀”,它允许用户仅通过文本就能进行纯音频输出。
虽然一些人工智能模型可以创作歌曲或修改声音,但没有一个像这款新产品一样灵活多变。与过去的那些文生音频T2A和视频生音频V2A的AI工具更高级,我们看到Fugatto有限流出的视频里,做出了超出以往任何音频AI所做的成就,这真的有些像今年春节期间SORA的横空出世,或许Fugatto会成为真正能为音频人用到的AI音频工具。

这款产品名为Fugatto(Foundational Generative Audio Transformer Opus 1的缩写),它可以根据文本和音频文件的任意组合所描述的提示,生成或转换任何音乐、声音和语音的混合体。
例如,它可以基于文本提示创作音乐片段,从现有歌曲中移除或添加乐器,改变语音中的口音或情绪——甚至让人们制作出前所未闻的声音。
“这东西太野了,”多白金唱片制作人、词曲作者Ido Zmishlany说,他也是NVIDIA Inception计划(一项针对前沿初创公司的计划)成员One Take Audio的联合创始人。“声音是我的灵感来源。它激发我创作音乐。想到我能在工作室里即时创作出全新的声音,这真是太不可思议了。”
对音频的精湛掌握
“我们想创建一个能够像人类一样理解和生成声音的模型,”NVIDIA应用音频研究经理、Fugatto背后十多人团队中的一员Rafael Valle说,同时他还是一名管弦乐队指挥和作曲家。
Fugatto支持多种音频生成和转换任务,是第一个展示涌现特性(即其各种训练能力相互作用而产生的能力)和结合自由形式指令能力的基础生成式人工智能模型。
“Fugatto是我们迈向未来的第一步,在这个未来中,音频合成和转换中的无监督多任务学习将从数据和模型规模中涌现出来,”Valle说。
用例播放列表示例
例如,音乐制作人可以使用Fugatto快速原型设计或编辑歌曲创意,尝试不同的风格、声音和乐器。他们还可以为现有曲目添加效果并提升整体音质。
“音乐的历史也是技术的历史。电吉他赋予了世界摇滚乐。当采样器出现时,嘻哈音乐诞生了,”Zmishlany说。“有了人工智能,我们正在书写音乐的下一章。我们有了一种新的乐器,一种制作音乐的新工具——这太令人兴奋了。”
广告公司可以应用Fugatto快速针对多个地区或情境调整现有广告活动,为配音应用不同的口音和情绪。

语言学习工具可以进行个性化设置,使用说话者选择的任何声音。想象一下,在线课程可以用任何家庭成员或朋友的声音来讲述。
视频游戏开发者可以使用该模型修改游戏中的预录资产,以适应玩家游戏时不断变化的动作。或者,他们可以根据文本指令和可选的音频输入即时创建新的资产。
制造欢快的噪音
“我们特别自豪的模型能力之一是我们称之为‘牛油果椅子’的东西,”Valle说,他指的是由生成式人工智能成像模型创建的一种新颖视觉。

例如,Fugatto可以让小号发出 bark(吠叫)声,或者让萨克斯管发出 meow(喵叫)声。用户能描述什么,模型就能创造什么。
通过微调和少量的歌唱数据,研究人员发现它可以处理它没有预训练过的任务,比如根据文本提示生成高质量的歌唱声音。
用户获得艺术控制
Fugatto的新颖性还体现在几个能力上。
在推理过程中,该模型使用了一种名为ComposableART的技术,将只在训练期间分别看到的指令组合起来。例如,一组提示可以要求用法语口音说出带有悲伤情绪的文本。
该模型能够在指令之间进行插值的能力为用户提供了对文本指令的精细控制,在这种情况下是口音的浓重程度或悲伤的程度。
“我想让用户以主观或艺术的方式组合属性,选择他们对每个属性给予多少重视,”设计模型这些方面的AI研究人员Rohan Badlani说。
“在我的测试中,结果往往令人惊讶,让我感觉自己有点像艺术家,尽管我是一名计算机科学家,”Badlani说,他拥有斯坦福大学人工智能方向的计算机科学硕士学位。
该模型还能生成随时间变化的声音,他称之为时间插值。例如,它可以创建一场雨暴穿过一个区域的声音,伴随着雷声渐强,然后慢慢消失在远处。它还让用户能够精细控制声音景观的演变。
此外,与大多数只能重现其接触过的训练数据的模型不同,Fugatto允许用户创建它从未见过的声音景观,比如雷暴缓缓过渡到黎明,伴随着鸟儿的歌唱声。
深入探究
Fugatto是一个基础生成式变换器模型,建立在团队在语音建模、音频编解码和音频理解等领域的先前工作之上。
完整版本使用25亿个参数,并在配备32个NVIDIA H100 Tensor Core GPU的NVIDIA DGX系统集群上进行训练。

Fugatto由来自世界各地(包括印度、巴西、中国、约旦和韩国)的一群多元化人士共同打造。他们的合作增强了Fugatto的多口音和多语言能力。
这项工作中最困难的部分之一是生成一个包含数百万个用于训练的音频样本的混合数据集。团队采用了一种多方面的策略来生成数据和指令,这大大扩展了模型可以执行的任务范围,同时提高了性能准确性,并启用了无需额外数据的新任务。
他们还仔细审查了现有数据集,以揭示数据之间的新关系。整体工作持续了一年多。
Valle记得团队意识到他们取得了突破的两个时刻。“它第一次根据提示生成音乐时,我们惊呆了,”他说。
后来,团队演示了Fugatto根据提示创作带有狗叫声节奏的电子音乐。
“当大家笑成一团时,我的心里真的暖洋洋的。”
听听Fugatto能做到什么: