声音人不得不关注 AI人工智能语音技术
去年,一部非传统的纪录短片《在月球灾难中》获得艾美奖Interactive Media互动媒体:纪录片新闻与纪录片大奖。我们说 “纪录片”往往能想起一些词,例如“事实”、“真实”、“非虚构”和“真相”。 有趣的是,这部纪录电影提出了一个问题,“你能发现它有‘虚假’的部分吗?”
“In Event of Moon Disaster”(由 MIT 高级虚拟中心制作,由Francesca Panetta 和 Halsey Burgund 联合执导)利用 Canny AI 和 Respeecher 的机器学习技术来处理 1969 年尼克松总统发表的广播的画面和声音关于阿波罗 11 号任务的演讲。
影片中总统会阅读实际上写于 1969 年的应急演说,以防万一阿波罗 11 号任务以灾难告终,但实际情况尼克松从未在镜头前大声朗读过它,因为他不需要。 所以他在“In Event of Moon Disaster”影片中的声音是AI人工智能根据他的声音生成——当然是假的!
2021 年上映的另一部纪录片《Roadrunner:一部关于 Anthony Bourdain 的影片》(艾美奖:声音设计师/混录师Benny Mouthon和Brian Bracke谈《安东尼•波登:未知之旅》的混音制作)也使用了 AI 生成的声音——在这种情况下,它读取了 Bourdain 从未录制的几句台词。 这部电影在电影界引发了一场关于人工智能语音克隆的巨大讨论。
MPSE获奖的声音总监 Al Nelson(他做了这部电影的声音,但没有直接参与语音克隆过程)解释说,对白编辑(从故事片到新闻剪辑)有时需要将台词剪辑在一起以创建更简洁、清晰、语法正确的句子。这些经过编辑的对白块在真人秀世界中被广泛应用,称为“Frankenbites”。(这种做法在新闻中也并非闻所未闻。)
声音总监Al Nelson说:“至少根据我的经验,不会扭曲或操纵上下文的表述意思。这样做只是是为了做出更简洁的陈述。这就是这部电影发生的事情。对白是基于安东尼自己写的东西,而不是让演员阅读或给它加上字幕,导演摩根内维尔希望它被阅读,因为它对开场很重要。我们得到了一些经过 AI 复制的单词,并将它们插入到我们的声音编辑中。这是关于试图让它更可信一点,吸引观众而不是让它感到脱节。导演摩根的目的是让观众沉浸其中,而不是误导他们。这可能是一个有用的工具,在这种情况下,它很有用。”
正如作者J.K. Rowling via Albus Dumbledore所说的那样,“理解是接受的第一步。” 目前国际上用语后期制作的两种国际领先的 AI 语音生成器——Respeecher 和 Sonantic。
除了“In Event of Moon Disaster”,Respeecher 还被用来为 Disney+ 系列“The Mandalorian”中的 Young Luke Skywalker 配音,以及在去年的超级碗前广告“As One”中为 Vince Lombardi 配音。” 它最近被用来为 Medalla 广告克隆著名的波多黎各体育解说员 Manuel Rivera Morales 的声音。Respeecher 的 API 被用作 Ver-tone 的 MARVEL.ai 平台的一部分。
Respeecher 生成 AI 语音的主要方法是通过语音到语音。 这意味着一行对话以一个语音录制,然后转换为目标语音。Speech-to-speech 的好处是情感的细微差别、语调变化、节奏和投射水平(耳语到大喊)直接传递给目标声音。
Respeecher 首席执行官 Alex Serdiuk 解释说,他们的深度学习模型旨在了解声学领域中声音之间的差异。他们的模型比较了两种声音之间的音色,因此一种声音实际上是在驱动另一种声音。
“Respeecher 不依赖于任何特定的词汇。 这就是为什么我们的模型在人类情绪化的程度上是情绪化的。 在转换过程中,您的表现没有受到影响或改变。 只有人声被改变。 所以你可以表现出你需要的情感,但你的声音听起来会非常不同,就像你使用不同的声带一样,”他说。
要创建语音克隆,Respeecher 需要与目标语音进行大约 40 分钟的对话。 该数据集中的情绪范围应该与转换所需的情绪范围相似。 “对于我们的大多数项目,我们不得不处理现有数据,因为我们已经完成了相当多的语音去老化和语音复活。 所以我们仅限于已经记录的数据,”Serdiuk 说。
从档案素材创建语音克隆时,Respeecher 更喜欢处理清理和降噪好的语音,“因为我们知道模型如何对这种类型的处理做出反应,”Serdiuk 解释说。他们使用各种音频恢复工具,从 iZotope RX 等第三方降噪解决方案到增强对白的专有工具。这是一个不断改进的过程。 “我们在 2020 年开展的许多项目的输出都有非常轻微的磁带嘶嘶声,但在我们今年 12 月交付的一个项目中,我们能够将其全部删除。目标素材听起来像是昨天录制的,而不是 40 年前录制的。”
为了更简单地使用 Respeecher(对于那些不想克隆语音的人),提供了一个名为 TakeBaker 的语音市场和网络浏览器应用程序,可以以合理的月(或年)费获得许可。Marketplace 提供超过 40 种不同年龄、不同性别的目标语音选项,甚至包括狗等非人类选项。
由于 TakeBaker 是一个网络浏览器应用程序,只需要将麦克风连接到你的计算机并自己执行,或上传自己的简短对白剪辑(如 .ogg、.wav、.flac 或 .mp3)转换。 同样,性能是关键。TakeBaker 中目前没有编辑选项,因此如果不能完美地执行,那将不得不重新录制它。
音频质量也很重要。 一个高品质的麦克风、适当的输入电平和安静的录音环境将导致更准确的转换。
还可以对目标声音进行音高调整。例如,如果一个深沉的男性声音选项需要更深一些,可以在转换之前进行调整。转换需要几分钟,因为模型会分析输入语音和目标语音,然后渲染输出。 然后可以将镜头下载为 48k/16 位 .wav 文件。
对于纽约布鲁克林 Red Hook Post 后期公司的声音编辑/声音设计师/演员 Abigail Savage,Respeecher 的语音市场和 TakeBaker 工具有助于为电影项目创建背景人声细节。例如,如果一个场景中有一群人在后台聊天,Savage 通常会录制一个循环组,或者录制来自录音棚周围的几个人,具体取决于时间和预算。 不过,在后一种情况下,她仅限于当时录音棚中可用的声音范围。
“相反,我一直在使用 Respeecher 来表演台词。 我可以记录任何对话的双方,然后通过他们的 AI 声音找到合适的声音。 我正在以这种方式创建自己的循环组。 这非常有趣,”Savage说。 “你也完全控制了音频品质。 当确切地知道自己想要什么时,不会试图取笑某人的表演。 你可以把自己说的录音录下来,然后转换成不同的声音。”
Savage 指出,虽然自她开始与 Respeecher 合作以来,这项技术有所改进,但仍不完美。“最初,总有表演方面的扁平化感觉。 而我倾向于的目标声音不一定与我期待的表现同步。那里仍然存在脱节,但通过更新已经变得更好了,“萨维奇Savage说。“另一个问题是转换所需的时间——产生声音需要多长时间。 使该工作流程更快也是需要不断改进的事情。”
根据创始人Serdiuk 的说法,Respeecher 目前正在开发一个可能的独立应用程序,或者用于 Pro Tools 或 Audacity 的插件。 对于 Savage 来说,拥有一个可以插入音轨的 Respeecher 插件,并具有实时语音转换功能,将是理想的选择。 “下一个最好的解决方案是类似于 iZotope 的 RX Connect 的解决方案,它允许将剪辑从 Pro Tools 发送到独立的应用程序进行处理,”Savage 指出。
Respeecher 也提供了文本到语音的选项——在 TakeBaker 中可用——但与语音到语音不同,文本到语音往往没有情感。 文本到语音的另一个问题是它仅限于语言模型和词汇。 对于文本转语音选项,Respeecher 目前提供四种口音:美国英语、GB 英语、CA 法语和 FR 法语。
Sonantic 主要用户还是在使用文本转语音。当然对于更复杂的项目,Sonantic 可以与客户合作创建自定义语音克隆,就像他们与演员 Val Kilmer 在喉癌的破坏性影响后重建他的声音一样。为此,他们需要大约三个小时的干净材料,涵盖范围合适的,从语音到情感风格。
但就Kilmer而言,他们只能使用历史记录的素材。“我们必须去除背景噪音,同时保持他的声音质量完好无损。清理音频样本后,Sonantic 的数据比通常需要的少十倍。这导致了新算法、技术和模型的创建,这些新算法、技术和模型已被重新整合到语音引擎中,从而增强了其在未来处理困难语音内容的能力。总的来说,在完成 Val 的原型之前,创建了 40 个不同的选项,”Sonantic创始人Flynn说。
创建自定义语音克隆可能需要六到十二周的时间。但一旦完成,语音模型将与其他语音模型一起出现在用户自己的 Sonantic 平台中。
今年6月Sonantic被在线音频内容巨头Spotify收购,相信未来会有更强大的技术。
声音总监、MPSE电影声音剪辑协会总裁 Mark A. Lanza 看到了这项技术在历史遗留项目中使用的潜力,“这是电影的第七、八、十二次迭代,他们希望带回一个十年前做过的演员,现在已经过去了。 随着他们在视觉媒体上的飞跃——能够在视觉上重现演员——他们现在也可以用声音重现演员。 影响是惊人的。 你可以让任何曾经生活过的演员出现在你的电影中。 你不能越来越多地从视觉上分辨出差异,你也无法从声音上分辨出差异,”他说。
同时作为一名声音设计师,Al Nelson很高兴能够使用人工智能语音技术为电影创造新的语言,或创造新的外星人声音。 “这创造了一个全新的领域,可以在其中获取特定表演的声音库,将其加载到该程序中,并使用参数来操纵声音以制作一种完全不同的不存在的语言。可以将所有辅音换成不同的辅音。 这可能是一个新的水平,但我希望我们仍然保持这种性能——那种偶然性——当你有真正的人类参与这个过程时,它就会存在,”
Serdiuk 认为 AI 语音生成不是与演员特别是配音演员去竞争,而是他们扩大范围的一种方式。 “我们的技术严重依赖配音演员,因为他们需要扮演角色。 将我们的技术作为他们业务的一部分,他们可以获得更多的工作,因为他们不受与生俱来的声音的束缚。 只需从素材库挑选不同的声音,他们就可以在不同的性别或不同的年龄表演,”他说。
随着语音合成的发展和改进,它有助于建立明确定义的法律和道德政策,以帮助阻止对该技术的欺骗性使用。Respeecher 还在探索为其软件生成的内容添加水印的方法。 对于纪录片,可能使用语音克隆或人工智能生成的声音可能会让观众更容易接受。 也许需要在在影片前面放一张标题卡来说明完成的,上面写着一个演员的复制声音被用于一个项目——就像 Savage 的最新项目一样。
“在我看来,提高对工具的认识是我们可以采取的最好的措施之一,以保护自己免受恶意使用的工具的侵害,”Serdiuk 总结道。
是的,任何技术都没有好坏,在于使用的人与其目的,人工智能已经越来越深入到影视制作的各个领域,你不能躲避它。
关于人工智能,我们还有些内容:狼来了?!Ai人工智能混音 它还是来了!|What!AI来了!人工智能配乐!!