获声音奖无数的披头士纪录片!60小时的声音幕后挑战 人工智能获胜
《披头士乐队:回归》(The Beatles: Get Back)是由彼得·杰克逊执导的纪录片,全片共三部分,分别于2021年11月25日、26日和27日上线流媒体平台迪士尼 。影片基于长达55小时的未曝光录像,包括录音室中的罕见画面,讲述了正处于分崩离析之际的披头士如何录制出经典名曲/专辑《Let It Be》的故事,以披头士在伦敦萨维尔街苹果唱片公司总部旧址屋顶上的表演结束。
《披头士乐队:归来》这部纪录片的声音让每位观众都忍不住惊叹,这部正片长达七个多小时的影片背后,声音团队整理了多个不同来源的音频,将其全部同步,并为混音师提供了足够的独立元素进行平衡。该声音团队已经获得CAS和MPSE的奖项。
三人之前曾与杰克逊合作电影《他们不会变老》:专访纪录片《他们不会变老》声音编辑总监Brent Burge,为20世纪初的无声胶片创造声音和对话。而对于《披头士:回归》(以下简称《回归》),他们必须采用各种声音源,特别是Michael Lindsey-Hogg1970年纪录片Let It Be拍摄的声音源,清理它们、然后同步它们,以便观众可以体验与披头士乐队一起为他们的最后一张专辑(也名为《Let It Be》)共处同一房间内创作的感觉。这将涉及创造被称为“MAL”的新专有人工智能机器学习技术。
《回归》以披头士在伦敦萨维尔街苹果唱片公司总部旧址屋顶上的表演结束。该音乐会由10台不同的摄影机精心编辑,当时George Martin和Glyn Johns正在大楼地下室的工作室录制表演。如果你对声音工艺或者披头士感兴趣,这篇采访绝对值得一读。
MK:就最初的制作而言,我相信是在艾比路录音棚那边开始的,整个制作分为好几个阶段。我认为最开始可以追溯到2000年左右,那时候他们开始考虑修复《Let It Be》。大概几年前,所有原始的Nagras素材都被重新数字化并扔进了AVID。
初步整理是在英国,披头士的苹果团队看到了Peter对此所做的工作,他们谈了这项合作并让Peter参与其中,当时数字化的媒体被移交给了Wingnut(杰克逊的制作公司),然后我们继续寻找苹果甚至没有的音频,我们通过深度挖掘取得了一些小进展,直到1969年1月影像团队和我们声音团队才得到了最全面的资料。
Kwok:是的,随之而来的是一些挑战:没有任何东西与影像完全锁定,所以有两台16毫米相机独立运行,独立于所有录音。通常情况下,有一个录音师Peter Sutton,如果你愿意,他会试图跟随电影摄制组的设置,然后还有Glyn Johns和George Martin,他们负责设置录制过程。
在最初一个月里,他们从没有在Twickenham(后期公司)中进行任何录音,但当他们搬到萨维尔(Savile Row)位于伦敦市中心的苹果公司总部后,他们在很短的时间内就建立了一个临时工作室,以获得我们现在用于电影的八轨录音。这是两个完全独立的录音。Peter Sutton尽可能地获得尽可能多的音频,他需要积累近150小时的音频,大约是60个小时的电影录制。
BB:除了Marty所说的之外还有一件事需要补充,那就是他们的拍摄方式,一切都是自由的。我甚至不知道Peter Sutton是如何知道他们什么时候在真正运行摄像机的。我认为他们几乎都只是想捕捉到他们能捕捉到的任何东西。
他们对此进行了一些讨论,但他们用技巧捉弄了披头士乐队,让他们自己认为当时没有被拍摄。我很早就和Peter还有音乐编辑Steve Gallagher接触了,第4天87分钟的剪辑,是我们第一次看到的部分。
在早期,我们会就Peter设置的内容以及音频质量进行调整,在当时具有挑战性,因为我们只能听Peter剪辑下来的单声道Nagra磁带录音。当我和史蒂夫想出一个适合这部影片的方法时,我认为我们实际上保持了它的自由性,我们处理了很多特效音轨,很多音乐音轨还有对话音轨。
我们实际上是在使用单声道录音带,我们必须尽可能地尝试获得所有声音保真度,使这些磁带素材在全景声环境中被听到。这一部分多靠Emile。
ER:我想我是在2020年12月参与进来的,这个项目进展顺利,在当时的阶段,我们不得不努力缩短六个半小时。多年来,我利用我手头的工具,当然还有我们在《他们不会变老》中使用的工具,开发了一些相当不错的降噪方法。但试图从原始单声道素材中雕刻出一条可混合的音轨是一个非常艰巨的挑战。
当我开始认真研究那里的东西时,在素材分离这一部分进行了各种各样的最新研究。基本上,Andrew Muir在机器学习方面与我合作,能够采用当时人们正在探索的最先进的架构,并在此基础上构建,最终获得适合我们的东西,即高质量的后音频。许多研究都是围绕相当低的采样率、针对电话和实时使用进行的。 我们应该更关注质量和最终结果,而放太多重心在处理某事可能需要多长时间上。这是一段相当复杂的旅程,我们正在开发的机器学习生态系统和我们正在构建的模型,随着《回归》这部影片一起成长。
当然,编辑团队的其他成员在很大程度上是整个过程的一部分,因为他们会强调他们希望解决的问题,然后我能够以一种非常有针对性的方式研究我们如何做到这一点。因此,我们最终在《回归》的结尾处得到了一个完整的机器学习工具包,可以做一些事情,比如在他们交谈时将John和Paul的声音分开,诸如此类的事情,真的非常有用。
是的,而且即使是 8 轨录音,仍然要关注大量的房间音,所以8音轨和我们需要做的一些工作也不一定存在分离。具体来说,作为一个电影制片人,Peter所需要的是确保他的叙述可被理解的、可被听到,并呈现给观众。
事实上,乐队会像其他乐队一样,以不同的音量演奏,在他们的环境中发生了很多其他的事情,比如各种复杂性的大量底噪,这意味着,用原始的Nagra磁带和我们传统的声音编辑工作和恢复方法,获得彼得想要强调的简单对话实际上是不可能的。
安德鲁和他的团队所做的工作能够突出我们所面临的问题,然后是机器学习本身,我们亲切地称之为 MAL ,是以 Mal Evans (披头士乐队的巡演经理)命名的,但它也代表着“机器音频学习”。我们会扔东西在 MAL 学习这些问题,但当我们在《回归》中面对不同情况时,会遇到新的问题。
这些问题都是一旦 MAL 找到了如何处理它的方法,我们就能够进行解决的。它并不像我所看到的非线性影像或音频编辑那样,只是提取——它只是要吸出那个元素,或者你想要的那个层次,然后把其他的东西留在那里。对我来说,这是我无法想象的事情,当然,这比我们在2021年真正了解它的时候早了18个月。
事实上,我们非常关注的是素材分离,而不是再生。我们当然不会再生他们的任何声音或乐器。机器学习的范围是巨大的,但这不是我们要做的,我们要做的是尊重原本的东西,并确保可以再次讲述好这个故事。
你很快就习惯了这些工具,然后你就会想要更多。比如说,不是将两个声音分开,而是变成“保罗不在麦克风那里,他在后面,约翰在麦克风上处于前端,但我们有点希望他们在混音中处于同一个位置。”我们还做了进一步的工作来训练一些模特进行这种转变,从背景中将声音带到前台,或者将另一版音乐与一首8轨音乐相匹配。
我想这是一种提升,但肯定不是一代。我只是想在前面补充一点,我认为这个项目之所以特别适合机器学习等技术,是因为我们需要处理大量的素材。我的想法基本上是在我开发这项技术的时候做大部分的对白编辑。我相信观众也能看到,这是一项巨大的工作。
Burge:但要补充的是,Emile开发这项技术就像我们做这项工作一样。这个过程不是我们看到这个节目,Peter说‘好让我们开始吧’,Emile走进来我们就能立刻开始。我们发现了所有这些关于我们能做什么的发现,然后策划如何改变工作流程,以应对工作中遇到的变化。这实际上是一个不断发展的过程。
wok:它以惊人的速度发展。我认为从2021年1月到2月,大概有六周的时间,研发工作进行得如火如荼,Emile和Andrew正试图构建与团队其他成员创建的数据集兼容的模型。随着事情的发展,我们意识到这里有一些东西,但正如Emile所提到的,就其解决方案而言,这不是我们混音的时候想要的。起初我们认为“好吧,它并没有修复到我们想要的音质,但它可以在当前的Nagra素材上少量存在,至少会有更多的定义。”
但随着事情变越来越清晰明了、令人惊讶,随着Emile帮我们提高到48k,很明显我们完成的工作,已经开始呈现在混音阶段,这项技术已经将我们带到了一个阶段,我意识到我必须改变我的整个编辑方法。机器学习现在是基础,这就是其中之一,“好吧,我必须后退两三步,但一旦我向前迈进,世界就会戏剧性地打开。”
Steven Gallagher在音乐编辑中的工作方式也是如此,最初,它是为了找到将这个声音从这个音轨中取出的方法,这样我们就可以听到叙事。但后来,我们变得贪婪起来,我们开始弄清楚这些乐器在做什么——它们好的地方、坏的地方,并让MAL听到并弄清楚。这也影响了音乐编辑方面可以得到帮助的方式,特别是在为混音师提供平衡和专业化的能力方面。
Burge:因为有如此大量的素材,我们只能研究摆在我们面前的东西,就Peter交给我们的内容而言,不得不说,我认为我从未与这样的团队合作过,就能力而言,这是一个完美的升华,正确的人在正确的位置做的工作,最终与Peter做了一个声音,我认为他很满意。
团队里没有任何多余的人,正因为如此,我们实际上只是在螺旋式地完成彼得要交的东西,我们基本上只需要脚踏实地地思考,并在这类事情上做出快速行动。一旦每一步制作到位,整体的时间就会压缩。不过有些事情没有改变,有些时间安排还需要遵守。这是一个我们必须快速工作的案例。
Kwok:值得一提的是,我们将整150小时的音频作为资源,去了解MAL的学习方式,以及得到准确的帮助,以及可以帮助将音轨粘合在一起的不同东西,因此我们需要使用整个档案,但就Peter和Jabez Olssen(该影片的主编辑)交给我们的剪辑影像而言,我们手头上肯定已经够多了。此外,我认为他们的操作方式也受到了机器学习发展方式的影响。
以及进入并找到清晰度助手的能力,以及有助于将曲目粘合在一起的不同东西,因此我们使用了整个档案,但就Peter和Jabez(该系列主编辑Olssen)移交的画面剪辑而言,我们手头当然绰有余。此外,我认为他们的运作方式也参考了机器学习的发展方式。
Part 2是我们最后制作的一部分,在那个时候,我们能够通过机器学习将粗糙的AVID指南音轨返回到剪辑室,这给了Peter和Jabez更多的空间可以更自由地剪切。当然,因为Peter花了这么长时间处理这些素材,他真的知道深藏在其中的一些故事,但他从未想过他可以使用它们,因为它们被噪音的覆盖着。当他们突然成为潜在叙事的一部分,也改变了他剪辑的方式。
我们在Part 2看到了机器学习为swing提供的更多自由,因为随着它的发展,我们的同事都是剪辑室里的聪明人,一旦他们知道我们能做什么,他们就会提出“我想我们可以这样使用。”这在很大程度上是一种和我们一起探讨影像剪辑的进步。
Burge:这很有趣,我们并没有真的看到它们。当时屋顶上有一个人在那里安装了看起来像816话筒的设备,我猜另一个人是采访者,他正在楼下采访一些人。当我们看到Peter用分屏呈现的剪裁时,这是一个让我们大吃一惊的挑战。整个场景的实时体验真是太棒了。
它是如此的好,我们正在寻找一个机会,尝试利用屋顶上的音乐,并在新西兰的一个地方重新录制,找到一个我们可以这样做的地方,但当你要在大楼屋顶通过PA以全音量播放47分钟的披头士音乐时,确实会带来一些挑战。
但我们最终使用了许多非Nagra录制的其他摄影机录制的声音,它们提供给我们距离的空间性。我们花了很多时间设置实际的舞台声音,因为我们基本上使用了贾尔斯·马丁制作的8轨分轨声音,这本身就是一件棒的事情,看看他们如何设置所有这些,从布线到控制室。在这个场景中,你也可以听到一些反馈。
但是,这是一个真正能感受到舞台现场录制的8轨分轨的例子,非常近距离的麦克风,让声音听起来像你真的和披头士乐队一起在舞台上,我想这是对Mike Hedges的最大致敬,他有现场混音等经验。当你和他们一起上舞台和下台时,他真的在追求那个事件的特定声音,有点像在舞台下使用原来的Nagras。我认为那里做得很好,为录制的录音提供了真实的现场声音,这些录音听起来很棒。
你确实让Giles Martin和Sam Okell(两位著名的音乐混音师)预先传递了披头士的祝福,如果你愿意的话,然后让我们能够在杜比全景声的环境中使用它,并实际将其空间化,这是一个完美的结合,我们知道我们代表的是披头士乐队会喜欢的作品,然后把它们放到一个空间之中,作为一名电影制片人,彼得·杰克逊(PeterJackson)很高兴地说,‘这是我想要你拥有的体验。’
就屋顶而言,我真正引以为豪的一个因素是,有一些部分是拍摄的,但没有声音。这是一个挑战,我们能够再次进入素材库,然后挖出一点东西。
当我看影片时,即使我知道我听到了什么,但我确实制作了95%。对于普通观众来说,他们只是不会拿起刚刚扔在上面的东西,把这些场景粘在一起。这就是能够利用机器学习的力量,但正如Emile所说的那样,也有广泛的素材可供实际使用。
我不知道。当时EMI的那个人开了一个非常有趣的玩笑:“我不知道你为什么需要四个。你只有两只耳朵。”我们看了那些扬声器也有点困惑。
对我们来说,有些东西仍然是神秘和神奇的,我认为Matt Hurwitz很可能是一个真正试图深入研究它的人。但我不知道,我们从未得到任何真正的解释。