声音人不得不关注 AI人工智能语音技术

人工智能技术一直是近两年的热点，关于语言的人工智能，在国内的我们马上能想到文本生成语音，这项技术已经在大量的应用，特别是在线视频、自媒体等领域，包括同期录音网自己的内容也在使用。但今天我们聊一聊“声音生成和语音克隆技术”，特别是一些影视作品中的应用曾引起了不小的轰动。

语音生成与语音克隆

去年，一部非传统的纪录短片《在月球灾难中》获得艾美奖Interactive Media互动媒体：纪录片新闻与纪录片大奖。我们说 “纪录片”往往能想起一些词，例如“事实”、“真实”、“非虚构”和“真相”。有趣的是，这部纪录电影提出了一个问题，“你能发现它有‘虚假’的部分吗？”

声音人不得不关注 AI人工智能语音技术 - 第1张

“In Event of Moon Disaster”（由 MIT 高级虚拟中心制作，由Francesca Panetta 和 Halsey Burgund 联合执导）利用 Canny AI 和 Respeecher 的机器学习技术来处理 1969 年尼克松总统发表的广播的画面和声音关于阿波罗 11 号任务的演讲。

影片中总统会阅读实际上写于 1969 年的应急演说，以防万一阿波罗 11 号任务以灾难告终，但实际情况尼克松从未在镜头前大声朗读过它，因为他不需要。所以他在“In Event of Moon Disaster”影片中的声音是AI 人工智能根据他的声音生成——当然是假的！

声音人不得不关注 AI人工智能语音技术 - 第2张

2021 年上映的另一部纪录片《Roadrunner：一部关于 Anthony Bourdain 的影片》（艾美奖：声音设计师/混录师Benny Mouthon和Brian Bracke谈《安东尼•波登：未知之旅》的混音制作）也使用了 AI 生成的声音——在这种情况下，它读取了 Bourdain 从未录制的几句台词。这部电影在电影界引发了一场关于人工智能语音克隆的巨大讨论。

MPSE获奖的声音总监 Al Nelson（他做了这部电影的声音，但没有直接参与语音克隆过程）解释说，对白编辑（从故事片到新闻剪辑）有时需要将台词剪辑在一起以创建更简洁、清晰、语法正确的句子。这些经过编辑的对白块在真人秀世界中被广泛应用，称为“Frankenbites”。（这种做法在新闻中也并非闻所未闻。）

声音总监Al Nelson说：“至少根据我的经验，不会扭曲或操纵上下文的表述意思。这样做只是是为了做出更简洁的陈述。这就是这部电影发生的事情。对白是基于安东尼自己写的东西，而不是让演员阅读或给它加上字幕，导演摩根内维尔希望它被阅读，因为它对开场很重要。我们得到了一些经过 AI 复制的单词，并将它们插入到我们的声音编辑中。这是关于试图让它更可信一点，吸引观众而不是让它感到脱节。导演摩根的目的是让观众沉浸其中，而不是误导他们。这可能是一个有用的工具，在这种情况下，它很有用。”

正如作者J.K. Rowling via Albus Dumbledore所说的那样，“理解是接受的第一步。” 目前国际上用语后期制作的两种国际领先的 AI 语音生成器——Respeecher 和 Sonantic。

Respeecher

除了“In Event of Moon Disaster”，Respeecher 还被用来为 Disney+ 系列“The Mandalorian”中的 Young Luke Skywalker 配音，以及在去年的超级碗前广告“As One”中为 Vince Lombardi 配音。” 它最近被用来为 Medalla 广告克隆著名的波多黎各体育解说员 Manuel Rivera Morales 的声音。Respeecher 的 API 被用作 Ver-tone 的 MARVEL.ai 平台的一部分。

Respeecher 生成 AI 语音的主要方法是通过语音到语音。这意味着一行对话以一个语音录制，然后转换为目标语音。Speech-to-speech 的好处是情感的细微差别、语调变化、节奏和投射水平（耳语到大喊）直接传递给目标声音。

Respeecher 首席执行官 Alex Serdiuk 解释说，他们的深度学习模型旨在了解声学领域中声音之间的差异。他们的模型比较了两种声音之间的音色，因此一种声音实际上是在驱动另一种声音。

“Respeecher 不依赖于任何特定的词汇。这就是为什么我们的模型在人类情绪化的程度上是情绪化的。在转换过程中，您的表现没有受到影响或改变。只有人声被改变。所以你可以表现出你需要的情感，但你的声音听起来会非常不同，就像你使用不同的声带一样，”他说。

声音人不得不关注 AI人工智能语音技术 - 第3张

要创建语音克隆，Respeecher 需要与目标语音进行大约 40 分钟的对话。该数据集中的情绪范围应该与转换所需的情绪范围相似。 “对于我们的大多数项目，我们不得不处理现有数据，因为我们已经完成了相当多的语音去老化和语音复活。所以我们仅限于已经记录的数据，”Serdiuk 说。

从档案素材创建语音克隆时，Respeecher 更喜欢处理清理和降噪好的语音，“因为我们知道模型如何对这种类型的处理做出反应，”Serdiuk 解释说。他们使用各种音频恢复工具，从 iZotope RX 等第三方降噪解决方案到增强对白的专有工具。这是一个不断改进的过程。 “我们在 2020 年开展的许多项目的输出都有非常轻微的磁带嘶嘶声，但在我们今年 12 月交付的一个项目中，我们能够将其全部删除。目标素材听起来像是昨天录制的，而不是 40 年前录制的。”

为了更简单地使用 Respeecher（对于那些不想克隆语音的人），提供了一个名为 TakeBaker 的语音市场和网络浏览器应用程序，可以以合理的月（或年）费获得许可。Marketplace 提供超过 40 种不同年龄、不同性别的目标语音选项，甚至包括狗等非人类选项。

由于 TakeBaker 是一个网络浏览器应用程序，只需要将麦克风连接到你的计算机并自己执行，或上传自己的简短对白剪辑（如 .ogg、.wav、.flac 或 .mp3）转换。同样，性能是关键。TakeBaker 中目前没有编辑选项，因此如果不能完美地执行，那将不得不重新录制它。

音频质量也很重要。一个高品质的麦克风、适当的输入电平和安静的录音环境将导致更准确的转换。

还可以对目标声音进行音高调整。例如，如果一个深沉的男性声音选项需要更深一些，可以在转换之前进行调整。转换需要几分钟，因为模型会分析输入语音和目标语音，然后渲染输出。然后可以将镜头下载为 48k/16 位 .wav 文件。

对于纽约布鲁克林 Red Hook Post 后期公司的声音编辑/声音设计师/演员 Abigail Savage，Respeecher 的语音市场和 TakeBaker 工具有助于为电影项目创建背景人声细节。例如，如果一个场景中有一群人在后台聊天，Savage 通常会录制一个循环组，或者录制来自录音棚周围的几个人，具体取决于时间和预算。不过，在后一种情况下，她仅限于当时录音棚中可用的声音范围。

“相反，我一直在使用 Respeecher 来表演台词。我可以记录任何对话的双方，然后通过他们的 AI 声音找到合适的声音。我正在以这种方式创建自己的循环组。这非常有趣，”Savage说。 “你也完全控制了音频品质。当确切地知道自己想要什么时，不会试图取笑某人的表演。你可以把自己说的录音录下来，然后转换成不同的声音。”

声音人不得不关注 AI人工智能语音技术 - 第4张

Savage 指出，虽然自她开始与 Respeecher 合作以来，这项技术有所改进，但仍不完美。“最初，总有表演方面的扁平化感觉。而我倾向于的目标声音不一定与我期待的表现同步。那里仍然存在脱节，但通过更新已经变得更好了，“萨维奇Savage说。“另一个问题是转换所需的时间——产生声音需要多长时间。使该工作流程更快也是需要不断改进的事情。”

声音人不得不关注 AI人工智能语音技术 - 第5张

根据创始人Serdiuk 的说法，Respeecher 目前正在开发一个可能的独立应用程序，或者用于 Pro Tools 或 Audacity 的插件。对于 Savage 来说，拥有一个可以插入音轨的 Respeecher 插件，并具有实时语音转换功能，将是理想的选择。 “下一个最好的解决方案是类似于 iZotope 的 RX Connect 的解决方案，它允许将剪辑从 Pro Tools 发送到独立的应用程序进行处理，”Savage 指出。

Respeecher 也提供了文本到语音的选项——在 TakeBaker 中可用——但与语音到语音不同，文本到语音往往没有情感。文本到语音的另一个问题是它仅限于语言模型和词汇。对于文本转语音选项，Respeecher 目前提供四种口音：美国英语、GB 英语、CA 法语和 FR 法语。

Sonantic

Sonantic 主要用户还是在使用文本转语音。当然对于更复杂的项目，Sonantic 可以与客户合作创建自定义语音克隆，就像他们与演员 Val Kilmer 在喉癌的破坏性影响后重建他的声音一样。为此，他们需要大约三个小时的干净材料，涵盖范围合适的，从语音到情感风格。

声音人不得不关注 AI人工智能语音技术 - 第6张

但就Kilmer而言，他们只能使用历史记录的素材。“我们必须去除背景噪音，同时保持他的声音质量完好无损。清理音频样本后，Sonantic 的数据比通常需要的少十倍。这导致了新算法、技术和模型的创建，这些新算法、技术和模型已被重新整合到语音引擎中，从而增强了其在未来处理困难语音内容的能力。总的来说，在完成 Val 的原型之前，创建了 40 个不同的选项，”Sonantic创始人Flynn说。

创建自定义语音克隆可能需要六到十二周的时间。但一旦完成，语音模型将与其他语音模型一起出现在用户自己的 Sonantic 平台中。

今年6月Sonantic被在线音频内容巨头Spotify收购，相信未来会有更强大的技术。

谈及人工智能语音的未来

声音人不得不关注 AI人工智能语音技术 - 第7张

声音总监、MPSE电影声音剪辑协会总裁 Mark A. Lanza 看到了这项技术在历史遗留项目中使用的潜力，“这是电影的第七、八、十二次迭代，他们希望带回一个十年前做过的演员，现在已经过去了。随着他们在视觉媒体上的飞跃——能够在视觉上重现演员——他们现在也可以用声音重现演员。影响是惊人的。你可以让任何曾经生活过的演员出现在你的电影中。你不能越来越多地从视觉上分辨出差异，你也无法从声音上分辨出差异，”他说。

同时作为一名声音设计师，Al Nelson很高兴能够使用人工智能语音技术为电影创造新的语言，或创造新的外星人声音。 “这创造了一个全新的领域，可以在其中获取特定表演的声音库，将其加载到该程序中，并使用参数来操纵声音以制作一种完全不同的不存在的语言。可以将所有辅音换成不同的辅音。这可能是一个新的水平，但我希望我们仍然保持这种性能——那种偶然性——当你有真正的人类参与这个过程时，它就会存在，”

Serdiuk 认为 AI 语音生成不是与演员特别是配音演员去竞争，而是他们扩大范围的一种方式。 “我们的技术严重依赖配音演员，因为他们需要扮演角色。将我们的技术作为他们业务的一部分，他们可以获得更多的工作，因为他们不受与生俱来的声音的束缚。只需从素材库挑选不同的声音，他们就可以在不同的性别或不同的年龄表演，”他说。

随着语音合成的发展和改进，它有助于建立明确定义的法律和道德政策，以帮助阻止对该技术的欺骗性使用。Respeecher 还在探索为其软件生成的内容添加水印的方法。对于纪录片，可能使用语音克隆或人工智能生成的声音可能会让观众更容易接受。也许需要在在影片前面放一张标题卡来说明完成的，上面写着一个演员的复制声音被用于一个项目——就像 Savage 的最新项目一样。

“在我看来，提高对工具的认识是我们可以采取的最好的措施之一，以保护自己免受恶意使用的工具的侵害，”Serdiuk 总结道。

是的，任何技术都没有好坏，在于使用的人与其目的，人工智能已经越来越深入到影视制作的各个领域，你不能躲避它。

关于人工智能，我们还有些内容：狼来了？！Ai人工智能混音它还是来了！｜What！AI来了！人工智能配乐！！

AI(146)人工智能(16)语音克隆(3)语音技术(1)

{{userData.name}}

声音人不得不关注 AI人工智能语音技术

Hush Pro：基于silicon的AI驱动对白修复AAX插件发布

LANDR 公布AI人工智能公平贸易计划

AI人工智能如何重塑媒体工作流程和竞争策略

AI 语音初创公司 ElevenLabs 获得 8000 万美元融资，推出克隆语音市场

使用 Eleven Labs 的全新 AI 语音设计工具为任何应用创建 AI 语音

瞬息音宇宙 Pika的AI口形同步与音效生成开放

免费 – Tritik Timee 延迟插件

Kilohearts推出免费的去削波Clipper插件

Sound Variety 推出免费 Windows Tube Compressor 插件 FeenstaubTC

Sound Magic 发布 GraphicQ 并附带免费立体声版本

免费插件-KazrogKClipZero

Reason Studios 重新发布 ReCycle 免费软件

LancasterAudio&AuroraDSP发布Pulse2免费IR加载插件

Fors 发布 Sala 免费混响效果插件

韩美合拍科幻大片《编号17》声音制作幕后

Sonbile 发布pure:bundle AI 驱动去嘶音插件

此时无声胜有声(5) “静音的艺术”（视频下）

那个去听肝脏的女士《背后的秘密-40多个经典电影音效指南》（23）

IMBD有史高分美剧’切尔诺贝利’听起来如此真实 – 并且令人难以忘怀上

【音色酷第二十五期】Spitfire Symphony Orchestra 进行了增强并重新发布

【故事征集】声音人的「疫情」这三年

好莱坞大师们预测的2025影视音频行业发展趋势

SSG Audio 推出母带处理 AI 插件

Pro Tools 2024.6更新！更强大更便捷

iZotope RX11正式发布！新功能一览中字视频

AI音乐音干分离工具大盘点系列四基于在线独家

Techivation 发布AI驱动的动态共振抑制器插件

记住这些Pro Tools Zoom缩放技巧及快捷方式，成为音编快手

免费雷雨生成器，真香！

常见Pro Tools 错误代码含义及修复（1）

就这么屌，与ChatGTP-4o对话就完成角色配音

第96届奥斯卡获奖公布 Ludwig Göransson 颁奖视频