使用 Meta AI 的Audiobox 释放生成式声音的创作力量
Meta 于 2023 年中期推出了其语音生成 AI 模型 Voicebox,点链接:Voicebox 第一个生成式语音AI 革命已到来!,这是生成人工智能领域的一项突破。
但没想到这么快,年底紧接着发布了Voicebox 的继任者 Audiobox ,不仅在质量上超越了 Voicebox,将AI语音生成从语音扩充到了语音、音乐、音效等各方面,将生成式声音提升到一个新的应用水平,并且应用数字自动水印技术“负责任的使用”。该创新工具可以根据文本提示生成声音效果,消除语音录音中的噪音,创建重新设计的声音,生成音频风格的音乐等等,几乎涉及了声音制作的所有领域。
对于这一段时间与声音及声音制作相关的AI浪潮,无论是感到危机还是充满好奇,都无法逃避,需要我们直视了解,今天就来介绍一下最新的Meta 的 Audiobox。
Audiobox是什么?
创建高质量音频可能是一个具有挑战性的过程。并非每个人都是专业声音制作人,声音创作总是个头疼问题,非专业者无法使用广泛的专业工具和深厚的领域知识来创建音频,这就是 Meta 的 Audiobox 要发挥作用的地方。它是 Facebook AI Research (FAIR) 的声音生成工具,Meta 的最新AI产品,使用语音输入、自然语言文本提示或两者的组合来生成语音、音乐、音频和声音效果,可以轻松为各种用例创建自定义音频。
看视频:
Meta 旨在通过 Audiobox 降低音频创作的门槛,让普通用户轻松创作高质量的声音样本。无论需要想为播客、YouTube 视频、有声读物还是视频游戏创建音频,Audiobox 都可以成为完成工作的帮手。随着人工智能技术的不断进步,我们预计会看到更加复杂和富有创意的生成音频体验的出现,甚至未来也会覆盖声音制作最复杂的领域-电影声音制作。
Audiobox主要特征
- 多功能音频生成:Audiobox 可以使用语音输入和文本提示创建自定义音频,提供高度的自定义的结果;
- 专业模型:Audiobox 系列包括 Audiobox Speech 和 Audiobox Sound,可满足特定的音频需求;
- 基础模型 Audiobox SSL:所有模型均基于自我监督学习模型 Audiobox SSL 构建,确保稳健可靠的音频生成基础;
- 交互式演示:Audiobox 提供交互式演示来展示其功能,让用户能够试验并了解其独特功能。
Audiobox主要功能
生成式人工智能使音频创作和语音克隆变得流行,这样的工具并不匮乏。Meta 的 Audiobox 因其全面且领先的功能而脱颖而出,可满足特定的音频需求,可以使用它执行以下操作:
- 根据文本创建逼真的语音;
- 无需软件或乐器即可制作音乐音轨;
- 根据文本描述创建声音效果和环境声;
- 消除语音录音中的噪音;
- 用新声音替换音频剪辑中的空白部分;
- 使用文本提示调整语音样本的风格。
声音重新风格化:Audiobox 可以重新设计声音风格,使其听起来像是在不同的环境中 – 本例中是在一座大型教堂中。
Audiobox主要应用方向
- 创意项目:非常适合希望制作独特的音景或讲故事元素的艺术家、内容创作者和音频专业人士。
- 教育工具:在教育环境中可用于创建引人入胜的定制音频素材。
- 营销和广告:可以用来为营销活动和广告生成独特的音频元素。
- 研究与开发:作为人工智能和音频合成进一步研究的工具。
Audiobox的使用
Audiobox 的所有功能都可以从该公司的官方网站试用(国内没有梯子点进去会显示未在你所在的地区使用)。可以生成音频样本、检查预览并将其下载到你的设备。
1.转到 Web 上的 Audiobox 并移至“功能”选项卡。
2.选择“创建音频”菜单下方的相关选项。让我们使用重新设计的声音。
3.录制你的声音或从下拉菜单中选择示例声音。
4.添加你希望 AI 模型说话的一小段内容。描述叙述文本的声音风格。例如,您可以写一个短段落,并要求 Audiobox 以中年人友好的语气创建音频样本。
5.选择生成并让 AI 模型创建几个音频结果。选择播放按钮检查重新设计的语音结果并将其保存在您的计算机上。
具有生成填充功能的声音编辑:通过提供文本描述用户可以裁剪音频片段并使用 Audiobox 重新生成它。
Meta 称,Audiobox 在音质及“生成内容的准确度” 顺利击败了 AudioLDM2、VoiceLDM 及 TANGO,超越了现有最佳的音频生成模型
Audiobox 是广泛研究的产物,非常适合各种创意音频项目。同时,Audio专注于音频建模的技术方面和 Meta 对安全人工智能使用的承诺。它体现了人工智能在增强和彻底改变音频创作方面的潜力,同时保持道德和安全的人工智能实践。
Meta 的 Audiobox 正在重塑音景,融合人工智能语音克隆和音效与环境声音生成,正重新定义我们的听觉体验。
而以上这些,仅仅是开始!
包括OpenAI、谷歌、Intel、Microsoft都在进行这方面的研究,还有独立的音频AI公司,比如上一周Sora发布后收集了一大波流量的ElevenLabs,AI视频生成声音,这么秒就来了!也是这个领域的佼佼者。
Audiobox产品与ElevenLabs比较
Audiobox 和 ElevenLabs 是两个不同的人工智能音频生成平台,具有各自的特点和优势:
1、Audiobox Meta
1)音频生成:能生成声音和音效,结合声音输入和文本提示;
2)先进控制:提供高度可控性,超越了以前的模型(如AudioLDM2, VoiceLDM, TANGO)。
3)声景环境生成:能够使用自然语言提示来描述和生成环境,例如“河流奔流和鸟鸣”。
4)声音编辑:可以用于剪切和再生成音频段落,插入声音效果,例如“雨中的狗叫声”。
5)安全措施:包括自动音频水印和声音验证功能,以防止滥用和模仿。
6)研究和开发:目前主要面向研究人员和学术机构。
2、ElevenLabs
1)生动的语音生成:专注于生成逼真、自然的语音,几乎与真人无异;
2)多语种支持:支持29种语言,提供多样化的声音选择;
3)自定义语音模板:用户可以上传音频样本或使用预制模板来创建自定义语音;
4)实时预览和编辑:允许用户实时预览和编辑语音转换;
5)易用性:用户界面友好直观,适合所有技能水平的用户;
在比较两者时,Audiobox 的特点在于其广泛的音频生成能力和高级的控制选项,特别是在生成复杂的声景和控制声音风格方面。相比之下,ElevenLabs 的优势在于其生成逼真人声的能力,特别是在语音质量、多语种支持及自定义语音模板方面。
当下Audiobox的现实意义
就Audiobox生成的内容,可能离专业需求还有不小的距离,但在一些普通级别或者准专业级应用上完全可以实现,比如播客、短视频的声音制作,一些广告、宣传视频的制作,还可以辅助影视剪辑师填充声音等等等等……当然,这只是AI生成式音频技术的婴儿学步开始,而且仅仅半年就有这么大的进步,想想未来真的让我们的心情非常复杂。
近期与电影声音研学中心策划一个AI声音相关的学习专题,很快与大家见面。同时,同期录音网新建了“AI音频频道”,访问locationsound.cn或者点击阅读原文查看