Stable Audio Open:研究论文

Key Takeaways: 要点：

Stable Audio Open 研究论文描述了 Stability AI 使用 Creative Commons 数据训练的新型开放权重文本到音频模型的架构和训练过程。
Hugging Face 上提供稳定的音频开放权重。该模型根据 Stability AI 社区许可证发布，允许年收入高达 100 万美元的个人或组织进行非商业用途和商业用途。请联系我们获取企业许可证。
该模型可以根据文本提示生成 44.1kHz 的高质量立体声音频，并可用于合成逼真的声音和现场录音。
Stable Audio Open 在消费级 GPU 上运行，使其可用于学术目的和艺术用例。

在 Stable Audio Open 开源发布之后，很高兴分享概述该模型背后的技术细节的研究论文。该论文可在 arXiv 上获取，模型权重可在 Hugging Face 上获取。

阅读：

Architecture 建筑学

Stable Audio Open 引入了具有三个关键组件的文本到音频模型：

将波形压缩为可管理序列长度的自动编码器
用于文本调节的基于T5 的文本嵌入
在自动编码器的潜在空间中运行的基于变压器的扩散模型（DiT）。

该模型可生成 44.1kHz 的可变长度立体声音频，最长可达 47 秒。自动编码器实现了 21.5Hz 的低潜在速率，适用于音乐和音频。Stable Audio Open 是 Stable Audio 2.0 的变体，但在不同的数据集（知识共享数据）上进行训练。此架构类似，但使用 T5 文本调节而不是 CLAP。

Training Data 训练数据

Stable Audio Open 使用近 500,000 个获得 CC-0、CC-BY 或 CC-Sampling+ 许可的录音进行训练。该数据集包含来自 Freesound 的 472,618 个录音和来自 Free Music Archive (FMA) 的 13,874 个录音。

为了确保不包含受版权保护的材料，该内容是通过使用 PANN 音频标记器在 Freesound 中识别音乐样本来精心策划的。识别出的样本被发送到 Audible Magics 内容检测公司，以确保从数据集中删除潜在的受版权保护的音乐。

Use Cases 用例

Stable Audio Open 可以进行微调以定制音频生成，例如调整生成内容的长度，或满足各个行业和创意项目的精确需求。用户可以使用 A6000 GPU 在本地训练模型。要获得提示方面的帮助，请查看有关稳定音频 2.0 的一些提示。

以下是一些应用程序示例，既可用于模型的现成使用，也可用于微调或集成到工作流程中：

Sound Design 声音设计

声音效果和拟音效果生成可用于电影、电视、视频游戏和游戏开发的声音效果，例如脚步声、门吱吱声或环境声音。

环境声音：

创建适合场景情绪和氛围的音景或背景纹理。

采样创建：

生成鼓循环和音乐采样以制作音乐。

Commercial and Marketing Applications
商业和营销应用

音频品牌：

为广告创建音效或开发音频徽标和品牌声音，以通过自定义音频元素增强品牌认知度和身份。

Education and Research 教育与研究

学术项目使用音频合成、机器学习和音乐学研究模型来实验和分析生成的音频。

在此演示中，您可以找到更多示例，并了解稳定音频开放性能与其他型号的比较。

Conclusions 结论

Stable Audio Open 的发布标志着开源音频 AI 的一个重要里程碑。它提供 44.1kHz 的高质量立体声，并在消费级 GPU 上运行，重点关注数据透明度。虽然承认语音和音乐生成等领域的局限性，但该模型的可访问性和性能使其成为研究人员和艺术家的宝贵工具，突破了开放音频 AI 的可能性界限。

Hugging Face 上提供了稳定音频开放模型权重。我们鼓励声音设计师、音乐家、开发人员和音频爱好者下载该模型，探索其功能并分享他们如何使用 Stable Audio Open 的示例。

要了解最新进展，请在 Twitter、Instagram、LinkedIn 上关注，并加入 Discord 社区。

Stable Audio Open:研究论文 - 第2张

生成式音频的迅猛发展，从语音到音乐再到音效，环境等，展示了无限的潜力，你认为呢？欢迎留言。

AI(146)Stable Audio Open(1)

{{userData.name}}

Stable Audio Open:研究论文

Key Takeaways: 要点：

Architecture 建筑学

Training Data 训练数据

Use Cases 用例

Conclusions 结论

Sound Forge Pro 18发布，增加AI文本转语音功能

will.i.am 的新音频平台强调交互式AI人工智能

LANDR 公布AI人工智能公平贸易计划

Sonbile 发布pure:bundle AI 驱动去嘶音插件

Output推出AI驱动的个性化采样生成器

一款新的（TTS）模型支持高保真语音克隆

免费 – Tritik Timee 延迟插件

Kilohearts推出免费的去削波Clipper插件

Sound Variety 推出免费 Windows Tube Compressor 插件 FeenstaubTC

Sound Magic 发布 GraphicQ 并附带免费立体声版本

免费插件-KazrogKClipZero

Reason Studios 重新发布 ReCycle 免费软件

LancasterAudio&AuroraDSP发布Pulse2免费IR加载插件

Fors 发布 Sala 免费混响效果插件

韩美合拍科幻大片《编号17》声音制作幕后

Sonbile 发布pure:bundle AI 驱动去嘶音插件

奥斯卡声音艺术大咖分享：惊悚音效是如何炼成的

Zoom F1是个啥？录音机？话筒？- 产品经理专访（上）

Suno向AI创作者支付 100 万美元奖金，但不包括中国地区

请注意！DPA大师班世界巡讲中国站活动场地变更！（已结束）

Steinberg 推出AI频谱编辑音干分离利器新版本 SpectraLayers 10

大卫·爱登堡：地球上的一段生命旅程周周乐儿第184期

SSG Audio 推出母带处理 AI 插件

Pro Tools 2024.6更新！更强大更便捷

iZotope RX11正式发布！新功能一览中字视频

AI音乐音干分离工具大盘点系列四基于在线独家

Techivation 发布AI驱动的动态共振抑制器插件

记住这些Pro Tools Zoom缩放技巧及快捷方式，成为音编快手

免费雷雨生成器，真香！

常见Pro Tools 错误代码含义及修复（1）

就这么屌，与ChatGTP-4o对话就完成角色配音

第96届奥斯卡获奖公布 Ludwig Göransson 颁奖视频

{{userData.name}}

Key Takeaways: 要点：

Architecture 建筑学

Training Data 训练数据

Use Cases 用例

Conclusions 结论

相关文章

Sound Forge Pro 18发布，增加AI文本转语音功能

will.i.am 的新音频平台强调交互式AI人工智能

LANDR 公布AI人工智能公平贸易计划

Sonbile 发布pure:bundle AI 驱动去嘶音插件

Output推出AI驱动的个性化采样生成器

一款新的（TTS） 模型支持高保真语音克隆

免费 – Tritik Timee 延迟插件

Kilohearts推出免费的去削波Clipper插件

Sound Variety 推出免费 Windows Tube Compressor 插件 FeenstaubTC

Sound Magic 发布 GraphicQ 并附带免费立体声版本

免费插件-KazrogKClipZero

Reason Studios 重新发布 ReCycle 免费软件

LancasterAudio&AuroraDSP发布Pulse2免费IR加载插件

Fors 发布 Sala 免费混响效果插件

韩美合拍科幻大片《编号17》声音制作幕后

Sonbile 发布pure:bundle AI 驱动去嘶音插件

奥斯卡声音艺术大咖分享：惊悚音效是如何炼成的

Zoom F1是个啥？录音机？话筒？- 产品经理专访（上）

Suno向AI创作者支付 100 万美元奖金，但不包括中国地区

请注意！DPA大师班世界巡讲中国站活动场地变更！（已结束）

Steinberg 推出AI频谱编辑音干分离利器新版本 SpectraLayers 10

大卫·爱登堡：地球上的一段生命旅程 周周乐儿 第184期

SSG Audio 推出母带处理 AI 插件

Pro Tools 2024.6更新！更强大更便捷

iZotope RX11正式发布！新功能一览 中字视频

AI音乐音干分离工具大盘点 系列四 基于在线 独家

Techivation 发布AI驱动的动态共振抑制器插件

记住这些Pro Tools Zoom缩放技巧及快捷方式，成为音编快手

免费雷雨生成器，真香！

常见Pro Tools 错误代码含义及修复（1）

就这么屌，与ChatGTP-4o对话就完成角色配音

第96届奥斯卡获奖公布 Ludwig Göransson 颁奖视频

一款新的（TTS）模型支持高保真语音克隆

大卫·爱登堡：地球上的一段生命旅程周周乐儿第184期

iZotope RX11正式发布！新功能一览中字视频

AI音乐音干分离工具大盘点系列四基于在线独家