Stable Audio Open:研究论文
Key Takeaways: 要点:
-
Stable Audio Open 研究论文描述了 Stability AI 使用 Creative Commons 数据训练的新型开放权重文本到音频模型的架构和训练过程。
-
Hugging Face 上提供稳定的音频开放权重。该模型根据 Stability AI 社区许可证发布,允许年收入高达 100 万美元的个人或组织进行非商业用途和商业用途。请联系我们获取企业许可证。
-
该模型可以根据文本提示生成 44.1kHz 的高质量立体声音频,并可用于合成逼真的声音和现场录音。
-
Stable Audio Open 在消费级 GPU 上运行,使其可用于学术目的和艺术用例。
在 Stable Audio Open 开源发布之后,很高兴分享概述该模型背后的技术细节的研究论文。该论文可在 arXiv 上获取,模型权重可在 Hugging Face 上获取。
阅读:
Architecture 建筑学
Stable Audio Open 引入了具有三个关键组件的文本到音频模型:
-
将波形压缩为可管理序列长度的自动编码器
-
用于文本调节的基于T5 的文本嵌入
-
在自动编码器的潜在空间中运行的基于变压器的扩散模型(DiT)。
该模型可生成 44.1kHz 的可变长度立体声音频,最长可达 47 秒。自动编码器实现了 21.5Hz 的低潜在速率,适用于音乐和音频。Stable Audio Open 是 Stable Audio 2.0 的变体,但在不同的数据集(知识共享数据)上进行训练。此架构类似,但使用 T5 文本调节而不是 CLAP。
Training Data 训练数据
Stable Audio Open 使用近 500,000 个获得 CC-0、CC-BY 或 CC-Sampling+ 许可的录音进行训练。该数据集包含来自 Freesound 的 472,618 个录音和来自 Free Music Archive (FMA) 的 13,874 个录音。
为了确保不包含受版权保护的材料,该内容是通过使用 PANN 音频标记器在 Freesound 中识别音乐样本来精心策划的。识别出的样本被发送到 Audible Magics 内容检测公司,以确保从数据集中删除潜在的受版权保护的音乐。
Use Cases 用例
Stable Audio Open 可以进行微调以定制音频生成,例如调整生成内容的长度,或满足各个行业和创意项目的精确需求。用户可以使用 A6000 GPU 在本地训练模型。要获得提示方面的帮助,请查看有关稳定音频 2.0 的一些提示。
以下是一些应用程序示例,既可用于模型的现成使用,也可用于微调或集成到工作流程中:
Sound Design 声音设计
-
声音效果和拟音效果生成可用于电影、电视、视频游戏和游戏开发的声音效果,例如脚步声、门吱吱声或环境声音。
-
环境声音:
创建适合场景情绪和氛围的音景或背景纹理。
-
采样创建:
生成鼓循环和音乐采样以制作音乐。
Commercial and Marketing Applications
商业和营销应用
-
音频品牌:
为广告创建音效或开发音频徽标和品牌声音,以通过自定义音频元素增强品牌认知度和身份。
Education and Research 教育与研究
-
学术项目使用音频合成、机器学习和音乐学研究模型来实验和分析生成的音频。
在此演示中,您可以找到更多示例,并了解稳定音频开放性能与其他型号的比较。
Conclusions 结论
Stable Audio Open 的发布标志着开源音频 AI 的一个重要里程碑。它提供 44.1kHz 的高质量立体声,并在消费级 GPU 上运行,重点关注数据透明度。虽然承认语音和音乐生成等领域的局限性,但该模型的可访问性和性能使其成为研究人员和艺术家的宝贵工具,突破了开放音频 AI 的可能性界限。
Hugging Face 上提供了稳定音频开放模型权重。我们鼓励声音设计师、音乐家、开发人员和音频爱好者下载该模型,探索其功能并分享他们如何使用 Stable Audio Open 的示例。
要了解最新进展,请在 Twitter、Instagram、LinkedIn 上关注,并加入 Discord 社区。
生成式音频的迅猛发展,从语音到音乐再到音效,环境等,展示了无限的潜力,你认为呢?欢迎留言。