Google谷歌AI MusicLM生成音乐工具发布
谷歌的研究人员宣布了一种名为MusicLM的新型生成式AI模型,该模型可以从文本描述中创建24 KHz的音乐音频,例如“由失真的吉他即兴演奏支持的平静小提琴旋律”。它还可以将哼唱的旋律转换为不同的音乐风格,并输出几分钟的音乐。
MusicLM使用一个AI人工智能模型,该模型在谷歌所谓的“大型未标记音乐数据集”上训练,以及来自MusicCaps的字幕,这是一个由5,521个音乐文本对组成的新数据集。MusicCaps从人类专家那里获得文本描述,并从谷歌的AudioSet获得匹配的音频剪辑,AudioSet收集了超过200万个从YouTube视频中提取的10秒标记声音片段。
一般来说,MusicLM主要分为两个部分:首先,它采用一系列音频标记(声音片段),并将它们映射到字幕中的语义标记(表示含义的单词)进行训练。第二部分接收用户字幕和/或输入音频,并生成声学标记(构成生成的歌曲输出的声音片段)。该系统依赖于一个名为 AudioLM 的早期 AI 模型(谷歌于去年 9 月推出)以及其他组件,例如 SoundStream 和 MuLan。
谷歌声称 MusicLM 在音频质量和对文本描述的遵守方面优于以前的 AI 音乐生成工具。在MusicLM演示页面上,谷歌提供了许多人工智能模型的实例,从描述音乐感觉的“丰富字幕”中创建音频,甚至人声(到目前为止都是胡言乱语)。
- “长文字生成”(从一个丰富详细描述的文本生成音乐)
- “长生成”(从一个简单的提示创建五分钟的音乐剪辑)
- “故事模式”(它接受一系列文本提示并将其转换为一系列变形的音乐曲调)
- “文本和旋律条件”(接受人类哼唱或吹口哨的音频输入,并对其进行更改以匹配提示中列出的风格)
- “绘画标题条件”(生成与图像标题的情绪相匹配的音乐)
- “代际多样性”(同时生成多条不同的音乐供选择
在示例页面的下方,Google 深入探讨了 MusicLM 重新创建特定乐器(例如长笛、大提琴、吉他)、不同音乐流派、各种音乐家经验水平、地点(越狱、健身房)、时间段(1950 年代的俱乐部)等的能力。
AI人工智能生成的音乐并不是一个新想法,但过去几十年的人工智能音乐生成方法通常会创建音乐符号,然后由手或通过合成器播放,而 MusicLM 生成音乐的原始音频频率。
在MusicLM的论文中,其创建者概述了MusicLM的潜在影响,包括“创意内容的潜在盗用”(即版权问题),对培训数据中代表性不足的文化的潜在偏见,以及潜在的文化挪用问题。因此,谷歌强调需要做更多的工作来应对这些风险,并推迟了代码公开发布:“我们目前没有计划发布模型”。
谷歌还在其 MusicLM 学术论文中引用了 Riffusion,称 MusicLM 在质量上超过了它。
谷歌的研究人员已经在展望未来的改进:“未来的工作可能集中在歌词生成上,以及文本条件和人声质量的改进。另一个方面是高层次歌曲结构的建模,如引子、诗句和副歌。以更高的采样率对音乐进行建模是一个额外的目标。
可以毫不夸张地说,人工智能研究人员将继续改进音乐生成技术,直到任何人都可以通过描述它来创作任何风格的录音室质量的音乐——尽管目前还没有人能够准确预测这个目标何时会实现,或者它将如何影响音乐行业。
需要访问谷歌这些样本请登陆获得地址: