iZotope对白匹配Dialogue Match中混响模块背后的技术及使用技巧

Reverb混响匹配是Dialogue Match的重要组成部分,Dialogue Match是iZotope专为对白编辑和混音师提供的的插件。通过使用全新的EQ,混响和环境声匹配技术,“对话匹配”将一个录音的声音属性直接应用到另一录音上,只需几秒钟,即可让影片的场景保持环境和空间连续性。

在提供“Reference参考”和“Apply-To应用于”音轨,混响模块分析参考并产生具有类似特性的混响,例如反射密度、衰减时间、色彩和尺寸。简化的视图允许你调整干湿增益,高级面板允许更细致的微调。

对白匹配界面

混响模块是什么?其用途是什么?

在后期对白制作中,我们依靠工程师从来自多个来源的音频中创建一致的连贯的讲述。

例如,终混师和调音师需要将ADR混入已经有同期录音对白的场景中。ADR必须与原始同期录音的对白没有差别。有些纪录片的剪辑师会从不同的素材的音视频来制作,并将它们与画外音结合在一起去讲述一个故事。这些音频片段可能来自很多年以前,并且师录音在不同的录音设备,使用不同的麦克风以及在不同的环境中录制。有些播客会出现几个不同空间连线采访,但他们希望所有声源听起来都像在同一个房间里的谈话。

即使音频中的细微差别也可能会使观众听众感到迷惑,使他们从演员或者叙述访谈中分散注意力。建立一致性是提供良好聆听体验的必要条件。

一致的声音线(例如混响)对于创建所有音频信号源都在同一地点录音的感觉至关重要。在过去的实践中,录音师可能会需要花费数小时的时间来手动调整人造混响参数,以使干音源听起来与源素材的混响相似。这是一项具有挑战性的任务,因为在设置上几乎会出现无限的组合。换句话说,录音师必须非常大的参数空间中搜索调整。除此最重要的是,一些设置的组合是以非线性(难以预测)的方式相互作用。

iZotope努力减少繁琐以及在此项任务上花费的时间,以便录音可以将他们的技能和创造力集中用在真正重要的方面。在大型,多维,非线性参数空间中筛选需要花费大量时间和资源。幸运的是,AI机器学习技术在这些任务上表现出色。因此,问题就是:“是否有可能使用机器学习来捕获拥有自然混响参考音轨的混响曲线,并将其应用于干音?” 答案:“是!”

技术背后

Dialogue Match的混响模块使用一个深度学习的神经网络去聆听混响参考音频。通过向网络提供大量的参考资料,训练网络去预测混响DSP的设置。网络按顺序分析你的音频,使用前后顺序并检查它是如何随时间发展的。且完成几乎是即时提供的,并且受到所提供的音频前后区域的影响。

在幕后,混响模块使用Exponential Audio中屡获殊荣的技术来合成混响,该技术在提供自然声音混响并通过外科手术般的控制混响的时间和音调特性方面享有盛誉。神经网络已经进行了训练,以学习驱动Exponential Audio引擎的大量参数。随意给定参考音轨,网络会立即预测出一组独特的参数,以将混响应用于需要匹配的不相关音轨。

行得通吗?

在iZotope,声音设计团队由经验丰富的听众组成,他们花费了无数小时来验证混响模块提出的建议,另外还通过寻求外部Beta测试人员的反馈来确保混响匹配过程超出预期。

但不仅如此,izotope还想检查声音设计者和Beta测试人员的评估是否有可靠的统计证据支持。

MUSHRA实验,以确定混响模块是否像经验丰富的工程师一样擅长匹配混响。MUSHRA是一个很有帮助的研究工具,它代表了具有隐藏参照和锚定的多重激励,可帮助人们了解人们如何看待参考轨与一组比较轨的相似性。MUSHRA最初旨在评估音频编解码器的质量,并已用于无数关于音频相似性和品质的研究论文中。

MUSHRA的工作方式是这样的:有多个试验,并且对每个试验都提供清晰标记的参考音轨。此外,还有一些未标记和随机排序的比较音轨,称为“multiple stimuli 多重激励”。要求测试志愿者以0-100的等级对每个刺激与参考之间的相似性进行评分。

由AudioLabs的Schoeffler,M.等人在2018使用webMUSHRA进行的对白匹配实验。webMUSHRA —基于Web的听力测试的综合框架。

激励之一与参考完全相同。这是“隐藏参考”。我们期望测试志愿者将隐藏参考与标记参考非常相似。如果不是,那么我们得出的结论是它们的评级不可靠。

我们还在激励集中插入一个非常不同的锚。它可以帮助我们了解相似性评级的下限范围。

最后,剩下的激励是我们希望评估的。因此,在我们的实验中,我们提供了以下:

  • 隐藏的引用

  • 一个锚,这是一个混响轨随机设置的混响参数

  • 混响由经验丰富的人类工程师匹配

  • 混响由两个不同训练的神经网络匹配,我们称之为“回归网络”和“分类网络”

我们希望至少我们的一个神经网络能和我们的专家工程师一样好。下图显示了我们志愿测试人员的平均评分。

志愿者测试人员的平均评分

正如我们上面提到的,我们希望“隐藏的引用”平均得分接近100,而随机混响音轨(锚点)会得到更低的平均分数。任何不同的结论都表明我们的实验设计失败了。

很高兴的是,最终结果表明,回归网络(这是我们内置的混响模块)是与专家工程师一样的好。这个假设一直得到我们beta测试人员和声音设计团队的支持,但现在我们有一些统计数据来支持。更准确地说,可以说,基于0.24的p值,不能拒绝这样的假设,即人类工程师的评级和我们的混响匹配来自相同的假设。

使混响模块最有效的一些技巧

混响模块后面的神经网络在具有某些特征的素材上效果最佳。如果你采取以下建议,就会得到很好的结果:

  1. 提供至少三秒钟的参考音轨,但也不要太长,以使其包含无声或非常安静的部分。让神经网络经过至少三秒钟的混响对白训练。

  2. 避免使用嘈杂的参考音频。特别是,神经网络可能会被诸如嗡嗡声和空调噪音之类的固定噪声所混淆,从而导致其高估了其匹配度。如果参考噪声很大,请先尝试使用RX中的工具(如去杂声和频谱去噪)对其进行去噪。点击了解如何在工作流程中同时使用RX和Dialogue Match

  3. 不需要提供参考音轨完整混响尾音。这样做实际上可能会损害匹配性能,因为神经网络在音频的安静部分可能不那么准确。

  4. 提供参考轨迹时,请注意Pro Tools clip的长度。混响匹配将分析clip音频的全部,包括不可见的部分。这可能会导致一些惊讶的结果!

  5. 混响模块旨在用于干音。如果在Apply-To音轨上有房间声,请先考虑在RX中使用去混响。

  6. 最后请记住,该模块将根据您参考的不同区域去调整其建议。建议尝试一些不同长度及不同区域,并在进行过程中保存参考配置文件

混响模块是“对白匹配”内部强大的工具,可跨多个源声创建声音的连贯。尽管在设计时特别考虑了对白,但是没有理由不在其他参考资料上进行实验。 

该功能的优点之一是,它可以帮助录音师避免搜索无法克服的大参数空间,提供几乎即时的预览并节省大量时间。将来,还可能会考虑针对其他大型搜索空间训练神经网络。

欢迎加入我们声音后期的讨论,加小编微信Locationsound,注明入后期群,并请简短介绍自己。

近期文章推荐:|对白编辑快速工作流程:何时以及如何使用RX和Dialogue Match对白匹配|实地录音必看书籍精选 中文选择|英文选择|第二期团购难得优惠机会|大卫芬奇谈单声道黑白电影《曼克》的声音制作|让远程手机配音ADR更专业|详解ADR 壹-概念及流程 |贰-技术与操作|章鱼三代时码录音机 TentacleSync Track E 国内开箱首发!|短片微电影网剧的10个声音后期技巧 上||奈飞美剧《后翼弃兵》的声音幕后|新人课堂:Ambisonics声音格式及麦克 上||世界声景计划 |实地录音小组第二次活动主题—冬雪与冬雨||50年来的十一张最佳实地录音专辑|了解实地录音 Field Recording|对白匹配—何时可行不可行|Sound Scape 声景的定义|枪式麦克干涉管原理 |ZOOM H8开箱 国内独家首发 大量美图创新产品Zoom F2录音机震撼发布!|

同期录音网的声景专题还在进行中,点击下面的图片浏览文章