Museformer:AI 音乐新领域
人工智能艺术正在爆炸式增长,音乐可能是下一个。

Transformer 彻底改变了自然语言处理。然而,最近几个月,我们看到了人工智能如何应用于艺术和图像生成。几天前,微软发布了 Museformer,一个音乐生成模型。
音乐可以表示为有组织且离散的标记序列(毕竟,音乐由一系列按顺序的声音组成)。 Transformer 已被证明在文本生成方面非常高效,换句话说,Transformer 可以说除了生成文本序列之外什么也不做。Transformer的成功在于自注意力机制允许捕获文本中的长依赖关系。为了对音乐进行建模,我们需要能够捕获音乐序列各个部分之间的长期依赖关系和相关性。这为使用变压器生成音乐奠定了基础。

当然,事情并不那么容易:
- 长序列建模:音乐序列非常长(特别是当有多种乐器时)。这是一个问题,因为注意力机制具有二次复杂度,因此计算成本呈指数级增长。
- 音乐结构建模:音乐有其独特的结构,有一定的重复模式,可以有变化。这些模式有时会在序列中长距离重复出现,从而使其更加复杂。
这并不是第一次尝试用 Transformer 处理长序列。主要使用了两种方法:
- 局部聚焦,就像Transformer XL和Longformer的情况一样,基本上焦点仅集中在输入序列的一部分上,其余部分被丢弃。就音乐而言,保留的序列可能不包含音乐结构的重要部分。
- 全局近似,由线性变换器使用,其中存在序列压缩,尽管这种压缩降低了复杂性,但它并没有捕获音乐序列的各个部分之间的相关性。
本文的见解是,尽管这两种方法都不够充分,但我们可以结合两者的优点。事实上,并非音乐序列的所有部分都很重要(并且这些信息分布并不均匀)。所以我们需要保护和关注这些部分,在创作音乐时我们关注重要的重复。其余的,那些不太重要的段落可以近似。因此,总而言之,这个想法是专注于重要部分,但减少复杂性和计算量。
这种机制是通过一种称为细粒度和粗粒度注意力(FC-Attention)的机制来实现的,该机制取代了经典的自注意力模块:
总体思路是,鉴于成对全注意力的复杂性高得令人无法接受,我们不需要以相同的重要性级别关注整个序列,而是结合了两种不同的注意力方案——对结构的细粒度注意力相关条形图,以及其他条形图的粗粒度关注。

换句话说,有两个步骤:总结和聚合。第一步降低了复杂性,并为序列的一部分创建了一种“摘要标记”,然后信息随后被聚合(就像在经典注意力中一样,这允许信息的上下文化):
FC-Attention 的基本思想是,不是直接关注导致二次复杂度的所有 token,而是特定小节的 token 只直接关注对于生成结构化音乐(细粒度)至关重要的结构相关小节。注意力),而对于其他条形,令牌仅关注其摘要令牌以获取集中信息(粗粒度注意力)。为了实现这一点,我们首先通过汇总步骤汇总每个条的局部信息,然后通过聚合步骤聚合细粒度和粗粒度信息。
这些条仅代表序列的一部分。最后一个重要步骤是找出哪些代表重要信息并且可能在音乐序列中重复。为此,作者使用简单的汇总统计来计算整个序列中两个不同条形之间的相似性。
他们应用相同的方法来分析不同的风格,发现一些模式在不同的流派和风格中重复:
我们进一步对涉及各种流派和风格的音乐的不同数据集进行相似性统计。附录A中显示的结果有趣地表明这种模式普遍适用于多样性的音乐。我们相信这可以被视为适用于我们日常生活中大多数音乐的一般规则。
作者表示,这种结构使得模型能够符合音乐特征并覆盖结构相关信息(短期和长期)。此外,该模型保留了信息,而不是使用稀疏注意力来降低复杂性的模型(这会导致丢失大量信息)。

作者使用Lakh MIDI(LMD)数据集来训练模型,该数据集包含MIDI格式的多乐器音乐(总共使用了近三万首歌曲或1,700小时的歌曲,其中包含多种乐器)。
该模型包括 4 个隐藏层大小为 512、8 个注意力头和一个大小为 2,048 的前馈层。为了除了使用困惑度和相似性误差之外对其进行评估,他们还邀请了 10 个人(其中 7 名具有音乐背景)来评估 100 首随机生成的音乐作品。人们必须根据几个标准进行评估:音乐性(乐曲是否愉快有趣)、短期结构、长期结构和整体。
他们还将他们的模型与其他以前的模型进行了比较,表明他们的模型更优越:


尽管该模型能够生成质量和结构良好的音乐,但它仍然远非完美。
首先,由于Museformer在推理过程中采取随机采样,并且不接受手动控制,因此它很难确保生成的每首音乐片段都按照预期的方式结构良好。可以进一步探索增强其可靠性和可控性的技术。此外,生成的音乐的音乐性和创造力仍然远远落后于人造音乐,这仍然是所有现有音乐生成模型的问题。
在这里您可以聆听一些已创建的音乐示例:
Museformer:针对音乐生成具有细粒度和粗粒度关注的 Transformer
通讯作者.符号音乐生成旨在自动生成乐谱。
ai-muzic.github.io
此外,Museformer 是 Microsoft 一个更大项目的一部分。该项目名为 Muzic。

该项目旨在理解音乐(识别、查找、转录),然后生成它。存储库中已经有几个项目也可以进行测试。

微软并不是唯一一家致力于音乐项目的公司。事实上,几天前谷歌也制作了自己的模型,可以在人与人之间延续歌曲或演讲。人工智能艺术所发生的事情会发生在音乐上吗?你怎么认为?