iZotope对白匹配Dialogue Match中混响模块背后的技术及使用技巧
在后期对白制作中,我们依靠工程师从来自多个来源的音频中创建一致的连贯的讲述。
例如,终混师和调音师需要将ADR混入已经有同期录音对白的场景中。ADR必须与原始同期录音的对白没有差别。有些纪录片的剪辑师会从不同的素材的音视频来制作,并将它们与画外音结合在一起去讲述一个故事。这些音频片段可能来自很多年以前,并且师录音在不同的录音设备,使用不同的麦克风以及在不同的环境中录制。有些播客会出现几个不同空间连线采访,但他们希望所有声源听起来都像在同一个房间里的谈话。
即使音频中的细微差别也可能会使观众听众感到迷惑,使他们从演员或者叙述访谈中分散注意力。建立一致性是提供良好聆听体验的必要条件。
一致的声音线(例如混响)对于创建所有音频信号源都在同一地点录音的感觉至关重要。在过去的实践中,录音师可能会需要花费数小时的时间来手动调整人造混响参数,以使干音源听起来与源素材的混响相似。这是一项具有挑战性的任务,因为在设置上几乎会出现无限的组合。换句话说,录音师必须非常大的参数空间中搜索调整。除此最重要的是,一些设置的组合是以非线性(难以预测)的方式相互作用。
iZotope努力减少繁琐以及在此项任务上花费的时间,以便录音可以将他们的技能和创造力集中用在真正重要的方面。在大型,多维,非线性参数空间中筛选需要花费大量时间和资源。幸运的是,AI机器学习技术在这些任务上表现出色。因此,问题就是:“是否有可能使用机器学习来捕获拥有自然混响参考音轨的混响曲线,并将其应用于干音?” 答案:“是!”
Dialogue Match的混响模块使用一个深度学习的神经网络去聆听混响参考音频。通过向网络提供大量的参考资料,训练网络去预测混响DSP的设置。网络按顺序分析你的音频,使用前后顺序并检查它是如何随时间发展的。且完成几乎是即时提供的,并且受到所提供的音频前后区域的影响。
在幕后,混响模块使用Exponential Audio中屡获殊荣的技术来合成混响,该技术在提供自然声音混响并通过外科手术般的控制混响的时间和音调特性方面享有盛誉。神经网络已经进行了训练,以学习驱动Exponential Audio引擎的大量参数。随意给定参考音轨,网络会立即预测出一组独特的参数,以将混响应用于需要匹配的不相关音轨。
在iZotope,声音设计团队由经验丰富的听众组成,他们花费了无数小时来验证混响模块提出的建议,另外还通过寻求外部Beta测试人员的反馈来确保混响匹配过程超出预期。
但不仅如此,izotope还想检查声音设计者和Beta测试人员的评估是否有可靠的统计证据支持。
MUSHRA实验,以确定混响模块是否像经验丰富的工程师一样擅长匹配混响。MUSHRA是一个很有帮助的研究工具,它代表了具有隐藏参照和锚定的多重激励,可帮助人们了解人们如何看待参考轨与一组比较轨的相似性。MUSHRA最初旨在评估音频编解码器的质量,并已用于无数关于音频相似性和品质的研究论文中。
MUSHRA的工作方式是这样的:有多个试验,并且对每个试验都提供清晰标记的参考音轨。此外,还有一些未标记和随机排序的比较音轨,称为“multiple stimuli 多重激励”。要求测试志愿者以0-100的等级对每个刺激与参考之间的相似性进行评分。
由AudioLabs的Schoeffler,M.等人在2018使用webMUSHRA进行的对白匹配实验。webMUSHRA —基于Web的听力测试的综合框架。
激励之一与参考完全相同。这是“隐藏参考”。我们期望测试志愿者将隐藏参考与标记参考非常相似。如果不是,那么我们得出的结论是它们的评级不可靠。
我们还在激励集中插入一个非常不同的锚。它可以帮助我们了解相似性评级的下限范围。
最后,剩下的激励是我们希望评估的。因此,在我们的实验中,我们提供了以下:
-
隐藏的引用
-
一个锚,这是一个混响轨随机设置的混响参数
-
混响由经验丰富的人类工程师匹配
-
混响由两个不同训练的神经网络匹配,我们称之为“回归网络”和“分类网络”
我们希望至少我们的一个神经网络能和我们的专家工程师一样好。下图显示了我们志愿测试人员的平均评分。
志愿者测试人员的平均评分
正如我们上面提到的,我们希望“隐藏的引用”平均得分接近100,而随机混响音轨(锚点)会得到更低的平均分数。任何不同的结论都表明我们的实验设计失败了。
很高兴的是,最终结果表明,回归网络(这是我们内置的混响模块)是与专家工程师一样的好。这个假设一直得到我们beta测试人员和声音设计团队的支持,但现在我们有一些统计数据来支持。更准确地说,可以说,基于0.24的p值,不能拒绝这样的假设,即人类工程师的评级和我们的混响匹配来自相同的假设。
混响模块后面的神经网络在具有某些特征的素材上效果最佳。如果你采取以下建议,就会得到很好的结果:
-
提供至少三秒钟的参考音轨,但也不要太长,以使其包含无声或非常安静的部分。让神经网络经过至少三秒钟的混响对白训练。
-
避免使用嘈杂的参考音频。特别是,神经网络可能会被诸如嗡嗡声和空调噪音之类的固定噪声所混淆,从而导致其高估了其匹配度。如果参考噪声很大,请先尝试使用RX中的工具(如去杂声和频谱去噪)对其进行去噪。点击了解如何在工作流程中同时使用RX和Dialogue Match。
-
不需要提供参考音轨完整混响尾音。这样做实际上可能会损害匹配性能,因为神经网络在音频的安静部分可能不那么准确。
-
提供参考轨迹时,请注意Pro Tools clip的长度。混响匹配将分析clip音频的全部,包括不可见的部分。这可能会导致一些惊讶的结果!
-
混响模块旨在用于干音。如果在Apply-To音轨上有房间声,请先考虑在RX中使用去混响。
-
最后请记住,该模块将根据您参考的不同区域去调整其建议。建议尝试一些不同长度及不同区域,并在进行过程中保存参考配置文件
欢迎加入我们声音后期的讨论,加小编微信Locationsound,注明入后期群,并请简短介绍自己。
同期录音网的声景专题还在进行中,点击下面的图片浏览文章