使用 Meta AI 的Audiobox 释放生成式声音的创作力量

Meta 于 2023 年中期推出了其语音生成 AI 模型 Voicebox，点链接：Voicebox 第一个生成式语音AI 革命已到来！，这是生成人工智能领域的一项突破。

但没想到这么快，年底紧接着发布了Voicebox 的继任者 Audiobox ，不仅在质量上超越了 Voicebox，将AI语音生成从语音扩充到了语音、音乐、音效等各方面，将生成式声音提升到一个新的应用水平，并且应用数字自动水印技术“负责任的使用”。该创新工具可以根据文本提示生成声音效果，消除语音录音中的噪音，创建重新设计的声音，生成音频风格的音乐等等，几乎涉及了声音制作的所有领域。

使用 Meta AI 的Audiobox 释放生成式声音的创作力量 - 第1张

对于这一段时间与声音及声音制作相关的AI浪潮，无论是感到危机还是充满好奇，都无法逃避，需要我们直视了解，今天就来介绍一下最新的Meta 的 Audiobox。

Audiobox是什么？

创建高质量音频可能是一个具有挑战性的过程。并非每个人都是专业声音制作人，声音创作总是个头疼问题，非专业者无法使用广泛的专业工具和深厚的领域知识来创建音频，这就是 Meta 的 Audiobox 要发挥作用的地方。它是 Facebook AI Research (FAIR) 的声音生成工具，Meta 的最新AI产品，使用语音输入、自然语言文本提示或两者的组合来生成语音、音乐、音频和声音效果，可以轻松为各种用例创建自定义音频。

看视频：

Meta 旨在通过 Audiobox 降低音频创作的门槛，让普通用户轻松创作高质量的声音样本。无论需要想为播客、YouTube 视频、有声读物还是视频游戏创建音频，Audiobox 都可以成为完成工作的帮手。随着人工智能技术的不断进步，我们预计会看到更加复杂和富有创意的生成音频体验的出现，甚至未来也会覆盖声音制作最复杂的领域-电影声音制作。

样例一，描述并生成声音，输入文本“River running and then birds chiroing，一条流淌的河流和鸟儿在鸣叫”

描述并生成声音：用户可以提供所需声音的简短描述并要求模型生成它

Audiobox主要特征

多功能音频生成：Audiobox 可以使用语音输入和文本提示创建自定义音频，提供高度的自定义的结果；
专业模型：Audiobox 系列包括 Audiobox Speech 和 Audiobox Sound，可满足特定的音频需求；
基础模型 Audiobox SSL：所有模型均基于自我监督学习模型 Audiobox SSL 构建，确保稳健可靠的音频生成基础；
交互式演示：Audiobox 提供交互式演示来展示其功能，让用户能够试验并了解其独特功能。

样例二，描述特性并生成语音，用户可以输入“一位年轻女子语调高、语速快”。

描述并生成语音：用户可以提供所需语音的简短描述以及要叙述的文字记录，并要求模型生成语音

Audiobox主要功能

生成式人工智能使音频创作和语音克隆变得流行，这样的工具并不匮乏。Meta 的 Audiobox 因其全面且领先的功能而脱颖而出，可满足特定的音频需求，可以使用它执行以下操作：

根据文本创建逼真的语音；
无需软件或乐器即可制作音乐音轨；
根据文本描述创建声音效果和环境声；
消除语音录音中的噪音；
用新声音替换音频剪辑中的空白部分；
使用文本提示调整语音样本的风格。

样例三，声音重新风格化，用户将音频语音输入与文本样式提示相结合，以合成该语音在任何环境（例如，“在大教堂中”）或任何情绪（例如，“悲伤而缓慢地说话”）的语音。

Audiobox 是第一个支持双输入（语音提示和文本描述提示）以进行自由语音重新设计的模型。

声音重新风格化：Audiobox 可以重新设计声音风格，使其听起来像是在不同的环境中 – 本例中是在一座大型教堂中。

Audiobox主要应用方向

创意项目：非常适合希望制作独特的音景或讲故事元素的艺术家、内容创作者和音频专业人士。
教育工具：在教育环境中可用于创建引人入胜的定制音频素材。
营销和广告：可以用来为营销活动和广告生成独特的音频元素。
研究与开发：作为人工智能和音频合成进一步研究的工具。

样例四，描述声学特性并生成语音：文本提示不仅包括语音，还可以用于描述声学环境，生成在特定声学条件下的语音

描述并生成语音：文本提示不仅可以用于描述语音，还可以用于描述声学环境，例如本示例中的“在大型大教堂中”。

Audiobox的使用

Audiobox 的所有功能都可以从该公司的官方网站试用（国内没有梯子点进去会显示未在你所在的地区使用）。可以生成音频样本、检查预览并将其下载到你的设备。

1.转到 Web 上的 Audiobox 并移至“功能”选项卡。

2.选择“创建音频”菜单下方的相关选项。让我们使用重新设计的声音。

3.录制你的声音或从下拉菜单中选择示例声音。

4.添加你希望 AI 模型说话的一小段内容。描述叙述文本的声音风格。例如，您可以写一个短段落，并要求 Audiobox 以中年人友好的语气创建音频样本。

5.选择生成并让 AI 模型创建几个音频结果。选择播放按钮检查重新设计的语音结果并将其保存在您的计算机上。

样例五，声音编辑与声音填充，通过提供文本描述用户可以裁剪音频片段并使用 Audiobox 重新生成它。用户可以在声音背景不变的情况下剪切掉音频中文鸟叫改成狗叫。

具有生成填充功能的声音编辑：通过提供文本描述用户可以裁剪音频片段并使用 Audiobox 重新生成它。

Meta 称，Audiobox 在音质及“生成内容的准确度” 顺利击败了 AudioLDM2、VoiceLDM 及 TANGO，超越了现有最佳的音频生成模型

使用 Meta AI 的Audiobox 释放生成式声音的创作力量 - 第3张

Audiobox 是广泛研究的产物，非常适合各种创意音频项目。同时，Audio专注于音频建模的技术方面和 Meta 对安全人工智能使用的承诺。它体现了人工智能在增强和彻底改变音频创作方面的潜力，同时保持道德和安全的人工智能实践。

Meta 的 Audiobox 正在重塑音景，融合人工智能语音克隆和音效与环境声音生成，正重新定义我们的听觉体验。

而以上这些，仅仅是开始！

包括OpenAI、谷歌、Intel、Microsoft都在进行这方面的研究，还有独立的音频AI公司，比如上一周Sora发布后收集了一大波流量的ElevenLabs，AI视频生成声音，这么秒就来了！也是这个领域的佼佼者。

使用 Meta AI 的Audiobox 释放生成式声音的创作力量 - 第4张

Audiobox产品与ElevenLabs比较

Audiobox 和 ElevenLabs 是两个不同的人工智能音频生成平台，具有各自的特点和优势：

1、Audiobox Meta

1）音频生成：能生成声音和音效，结合声音输入和文本提示；

2）先进控制：提供高度可控性，超越了以前的模型（如AudioLDM2, VoiceLDM, TANGO）。

3）声景环境生成：能够使用自然语言提示来描述和生成环境，例如“河流奔流和鸟鸣”。

4）声音编辑：可以用于剪切和再生成音频段落，插入声音效果，例如“雨中的狗叫声”。

5）安全措施：包括自动音频水印和声音验证功能，以防止滥用和模仿。

6）研究和开发：目前主要面向研究人员和学术机构。

2、ElevenLabs

1）生动的语音生成：专注于生成逼真、自然的语音，几乎与真人无异；

2）多语种支持：支持29种语言，提供多样化的声音选择；

3）自定义语音模板：用户可以上传音频样本或使用预制模板来创建自定义语音；

4）实时预览和编辑：允许用户实时预览和编辑语音转换；

5）易用性：用户界面友好直观，适合所有技能水平的用户；

在比较两者时，Audiobox 的特点在于其广泛的音频生成能力和高级的控制选项，特别是在生成复杂的声景和控制声音风格方面。相比之下，ElevenLabs 的优势在于其生成逼真人声的能力，特别是在语音质量、多语种支持及自定义语音模板方面。

使用 Meta AI 的Audiobox 释放生成式声音的创作力量 - 第5张

当下Audiobox的现实意义

就Audiobox生成的内容，可能离专业需求还有不小的距离，但在一些普通级别或者准专业级应用上完全可以实现，比如播客、短视频的声音制作，一些广告、宣传视频的制作，还可以辅助影视剪辑师填充声音等等等等……当然，这只是AI生成式音频技术的婴儿学步开始，而且仅仅半年就有这么大的进步，想想未来真的让我们的心情非常复杂。

近期与电影声音研学中心策划一个AI声音相关的学习专题，很快与大家见面。同时，同期录音网新建了“AI音频频道”，访问locationsound.cn或者点击阅读原文查看

使用 Meta AI 的Audiobox 释放生成式声音的创作力量 - 第6张

AI(146)Audiobox(2)Meta AI(1)生成式声音(1)

{{userData.name}}

使用 Meta AI 的Audiobox 释放生成式声音的创作力量

AI录音棚设计，AI开始进入音频的每个角落

will.i.am 的新音频平台强调交互式AI人工智能

FL Studio 2024 发布，添加 FL Cloud 插件、AI 等功能

Audacity增加Intel支持的免费AI音频编辑及音乐生成、混音、分离等功能

Stagecraft Software的AI音干分离插件Simple Stems 2升级

1000名艺术家通过空荡的录音室环境声音专辑反对AI

Evergreen Audio 的 Mini Meter 免费轻量级计测插件

OBAM 沉浸式混音插件界面发布

4drX发布立体声混音器免费声像效果插件

EmergenceAudio更新InfiniteCollection免费系列音源

免费插件 – MAAT 的数字立体声视波表 GON

KlausScheuermann发布免费开源的播客插件

Signalbash 推出免费时间跟踪插件

Darkpalace Studio 发布 Caterpillar 免费立体声增强插件

Tiagolr发布Gate-12免费音量调制插件

限免：Gooey 的 Visage 立体声增强插件限时免费

Netflix网飞宣布为全部设备支持空间音频！无需任何专业设备！

私人战争周周片儿第215期 Locationsound.cn

NAMM SHOW 2016展会在美召开大量音频制作设备展出

AI音频技术进入广播的影响

独立声音奖揭晓！这些声音你用了么？

建议：声音后期工作者假期做的事

SSG Audio 推出母带处理 AI 插件

Pro Tools 2024.6更新！更强大更便捷

AI音乐音干分离工具大盘点系列四基于在线独家

常见Pro Tools 错误代码含义及修复（1）

免费雷雨生成器，真香！

姗姗来迟，Pro Tools 2024.10发布

Kiive Audio 推出重新设计的 NFuse 总线处理器插件

常见Pro Tools 错误代码含义及修复（2）

就这么屌，与ChatGTP-4o对话就完成角色配音

第96届奥斯卡获奖公布 Ludwig Göransson 颁奖视频