Eleven Labs “文生音频”AI发布!开源免费 无版权争议
著名AI模型 Stable Diffusion 背后的公司 Stability AI推出了Stable Audio Open,这是一个用于音频样本和声音设计的开源模型,针对使用文本提示生成简短的音频样本、音效和制作素材进行优化。该模型非常适合创建鼓点、乐器即兴演奏、环境声音、拟音录音和其他音频样本,该模型在 FreeSound 和 Free Music Archive 等完全免版权声音素材数据上进行了训练,尊重创作者的权利,不过目前它是在限制性的 Stability AI 非商业研究社区协议许可下提供的,该协议禁止将生成的任何声音用于商业用途。
官网内容如下:
用于音频样本和声音设计的开源模型
关键要点:
- Stable Audio Open 是一种开源文本到音频模型,用于生成长达 47 秒的样本和声音效果。
- 用户可以创建鼓点、乐器即兴演奏、环境声音、拟音和制作元素。
- 该模型支持音频样本的音频变化和风格转移。
我们很高兴地宣布推出 Stable Audio Open,这是一个开源模型,经过优化,可使用文本提示生成简短的音频样本、音效和制作元素。此次发布标志着一个重要的里程碑,因为我们进一步开放了部分生成音频功能,为声音设计师、音乐家和创意社区提供支持。
什么是 Stable Audio Open?
Stable Audio Open 允许任何人从简单的文本提示中生成长达 47 秒的高质量音频数据。其专业培训使其成为创建鼓点、乐器即兴演奏、环境声音、拟音录音和其他用于音乐制作和声音设计的音频样本的理想选择。
此开源版本的一个主要好处是,用户可以根据自己的自定义音频数据对模型进行微调。例如,鼓手可以对自己的鼓录音样本进行微调以生成新的节拍。
模拟合成器的琶音,具有逐渐上升的滤波器截止及混响尾部
它与Stable Audio有何不同?
商业 Stable Audio 产品可生成高质量、完整的音轨,具有长达 3 分钟的连贯音乐结构,以及音频到音频生成和连贯的多声部音乐作品等高级功能。
另一方面,Stable Audio Open 专注于音频采样、音效和制作元素。虽然它可以生成简短的音乐剪辑,但它并没有针对完整的歌曲、旋律或人声进行优化。这种开放模式提供了对用于声音设计的生成式人工智能的一瞥,同时优先考虑与创意社区一起进行负责任的开发。
新模型使用来自 FreeSound 和 Free Music Archive 的音频数据进行训练,能够在尊重创作者权利的同时创建一个开放的音频模型。
Getting Started 开始
Stable Audio Open 可在 Hugging Face 上使用。鼓励声音设计师、音乐家、开发人员和音频爱好者下载该模型,探索其功能并提供反馈。
虽然这是令人振奋的进步,但对于开放和负责任的音频生成功能来说,这仍然只是一个开始。我们期待继续研究,并与创意社区携手合作,优先考虑发展。
让AI音频的开放探索开始吧!