VoiceCraft:零样本语音编辑和文本转语音
在OpenAI展示语音引擎大模型之前几天,另一个语音克隆技术VoiceCraft同样发布了他们的重大进展,或者是不是从另一个角度:VoiceCraft的发布,促进了OpenAI尽快展示新技术。
VoiceCraft在语音编辑和零样本文本转语音 (TTS) 方面实现了最先进的性能,创造出与真实语音无法区分的语音,虽然目前它仅支持英语(但VoiceCraft主要人员都是中国人),鉴于其性能这已经是一个大新闻了,此外,这两天VoiceCraft已经通过GitHub开源了。
“要克隆看不见的声音或编辑录音,VoiceCraft 只需要几秒钟的声音。”,这正是VoiceCraft的优势,它只需有几秒,且无需微调,即很多样例都是在一句话中间插入修改词语,达到了令人惊叹的效果。
从本质上讲,VoiceCraft 利用了一种称为神经编解码器语言模型 (NCLM) 的特定类型的神经网络架构。与处理离散单词或字符的传统 NLP 模型不同,NCLM 在更细粒度的级别上运行,处理称为“编解码器令牌”的单元。这些标记代表语音的构建块,捕获声学特征和生成逼真音频所必需的其他信息,这也是获得语音情感表达可能的一条道路。
VoiceCraft 的关键创新在于其token重新排列程序。在语音编辑或 TTS 过程中,模型接收输入序列 – 现有语音录音(编辑)或文本提示 (TTS)。然后,它分析该输入并识别所需的编辑或目标语音特征。随后,VoiceCraft 在考虑双向上下文的同时以特定顺序重新排列代码令牌。这种上下文感知可确保生成的语音片段与周围音频无缝集成,从而产生听起来自然的编辑或合成语音。
VoiceCraft NCLM 架构中关键组件的细分:
- Encodec 编码解码器:该模块充当基础,负责将原始音频波形转换为代码令序列。它采用一种称为矢量量化 (VQ) 的技术,其中音频被压缩并使用一组离散的代码矢量来表示。每个代码向量本质上成为捕获特定声学单元的代码令。
- Transformer 模型:这种强大的神经网络架构擅长处理顺序数据和远程依赖性。在 VoiceCraft 中,转换器处理代码标记序列,分析它们与所需编辑或目标语音特征之间的关系。
- Output Modules 输出模块:根据处理后的信息,转换器预测最有可能完成编辑或 TTS 任务的代码标记序列。然后将这些预测输入专用输出模块,将其转换回相应的音频波形。
VoiceCraft 擅长编辑预先录制的语音。它可以处理各种编辑场景,包括:
- Insertion 插入:将新单词或短语添加到现有录音中。
- Deletion:删除:从录音中删除不需要的单词或短语。
- Substitution替换:用替代词替换特定的单词或短语。
为了执行编辑,用户提供原始录音、语音抄本以及反映所需编辑的修改抄本。然后,VoiceCraft 分析这些输入,并利用其标记重新排列技术将编辑内容无缝集成到原始音频中。这种方法可以对现有录音进行精确且听起来自然的修改。
VoiceCraft 在零样本 TTS 方面展示了令人印象深刻的功能。与需要对特定语音进行大量训练的传统 TTS 系统不同,VOICECRAFT 仅使用简短的文本提示和参考语音样本即可实现语音生成。这种“零样本”消除了对每个语音的大型训练数据集的需要,使其具有高度的通用性。
以下是 VOICECRAFT 处理零样本 TTS 的方式:
- Input 输入:用户提供表示所需语音内容的文本提示和目标语音的简短音频样本。
-
Processing 处理:模型分析文本提示以理解语言结构和含义。同时,它从参考语音样本中提取声学特征。
-
-
Token Rearrangement 命令重新排列:利用组合信息,VoiceCraft 重新排列代码令牌以生成反映提示的语言内容和目标语音的声学特征的序列。
-
-
Audio Synthesis 音频合成:最后,预测的代码令牌序列被解码回波形,从而产生与目标语音非常相似的合成语音,同时传达文本提示中的内容。
-
为了评估 VoiceCraft 在语音编辑任务中的有效性,研究人员创建了一个名为 REALEDIT 的新基准数据集。该数据集包含一系列真实的语音编辑示例,每个示例都经过精心设计,以代表各种编辑场景。REALEDIT 包含以下关键方面:
- Diversity 多样性:数据集包括来自各种来源的录音,例如有声读物、播客和 YouTube 视频,确保真实地表示语音变化。
- Editing Types 编辑类型:它包含一系列编辑类型,包括插入、删除和替换,并具有不同的编辑长度以反映实际的编辑需求。
- Human Evaluation 人工评估:REALEDIT 中的编辑不仅仅是机器生成的:人类专家审查并确保编辑的记录的语法正确性和语义连贯性。
- Speech Quality 语音质量:REALEDIT 中的录音保持高质量音频,最大限度地减少可能阻碍评估过程的背景噪音或失真。
- Annotation 注释:每个编辑示例都附有详细的注释,包括原始记录、反映更改的编辑记录以及所执行的特定编辑类型(插入、删除或替换)。
通过整合这些功能,REALEDIT 提供了一个全面且现实的平台,用于评估 VoiceCraft等语音编辑模型的性能。它超越了综合生成的编辑,提供了基于反映现实世界编辑要求的人工修改的基准。
研究人员进行了一系列实验来评估 VoiceCraft 在语音编辑和零样本 TTS 任务中的能力。以下是评估方法和主要发现的详细说明:
评估指标::
- Speech Editing: 语音编辑:
- Objective Metrics: 客观指标:WER(单词错误率)用于衡量编辑在单词错误方面的准确性,MCD(梅尔倒谱失真)、F0 距离(音调)和能量距离等指标用于评估编辑过程中韵律特征的保留情况。
- Subjective Metrics: 主观指标:人类听力测试,参与者根据李克特量表评估编辑后的语音的自然度和清晰度。
-
Fast cars, that had the nice clothes, that had the money, they was criminals.然后插入黑色加粗的内容,Fast cars, that had the nice clothes, that had expensive gold watches, that had the money, they was criminals.
结论:VoiceCraft 在所有客观和主观指标上都优于 FluentSpeech,证明了其在生成更自然、更准确的编辑方面的有效性。
有趣的是,在某些情况下,FluentSpeech 的 WER 低于原始录音。然而,人类听众对其清晰度的评价较低,这表明 ASR(自动语音识别)模型评估与人类对自然语音的感知之间存在潜在差异。
- Zero-Shot TTS: 零样品 TTS:
- Objective Metrics 客观指标:WER 用于评估生成的语音与真实文本之间的相似度,说话人相似度 (SIM) 用于评估合成语音捕获目标说话人特征的程度。
- Subjective Metrics 主观指标:人类听力测试,参与者按照李克特量表对生成的语音的自然度、清晰度和说话者相似度进行评分。
-
通过给大模型以下语音进行训练,只提供前3秒的语音。然后输入以下文本生成语音:hey you all, my name is corey ash and, and i know that you have been working really hard to try to figure out
结论:与其他评估模型相比,VoiceCraft 在所有主观指标上都取得了优异的性能,生成与目标说话者非常相似的自然语音。
虽然 WER 等客观指标在所有模型中都显示出良好的性能,但人类评估强调了自然性和说话者相似性的重要性,而 VoiceCraft 在这方面表现出色。
这些发现巩固了 VoiceCraft 作为语音编辑和零样本 TTS 任务的最先进解决方案的地位。它能够产生自然的编辑和逼真的合成语音,为各种应用铺平了道路。
VoiceCraft 的功能在多个领域都具有巨大的潜力:
- 辅助工具:有言语障碍或失声的人可以利用 VoiceCraft 通过编辑预先录制的语音或从文本生成合成语音来有效地进行交流。
- 内容创建:无缝编辑录音的能力可以显着简化播客、电影制作和视频制作等领域的内容创建工作流程。
- 电子学习和教育:VoiceCraft 可以通过生成不同口音或语言的合成语音来个性化电子学习体验,以满足更广泛的受众。
- 娱乐行业:配音、动画和有声读物旁白可以受益于 VoiceCraft 生成高质量合成语音的能力。
- 数据增强:VoiceCraft 生成的合成语音可用于丰富语音识别训练数据集,提高这些系统的准确性和鲁棒性。
最后,VoiceCraft也坦诚认为,除了这些有前途的应用之外,道德考虑也发挥着作用,这一点非常重要。
编辑和生成如此保真度语音的能力需要仔细考虑潜在的滥用。以下是围绕 VoiceCraft 和类似技术的一些关键道德问题:
- 偏见放大:确保 VoiceCraft 开发和部署的公平性和包容性至关重要。数据去偏见和公平意识培训等技术对于防止基于种族、性别或社会经济背景等因素的偏见持续存在至关重要。
- 滥用假冒和欺诈:用最少的音频样本克隆声音的能力引起了安全问题。恶意行为者可能利用这项技术进行冒充、传播错误信息或实施金融欺诈。
- Deepfakes 和合成媒体操纵:使用 VoiceCraft 或类似模型创建逼真的 Deepfakes 可能会削弱对在线内容和媒体的信任。检测和标记合成媒体的措施对于打击潜在的操纵策略至关重要。
- 隐私问题:VoiceCraft 的使用引发了有关用户隐私的问题。对于训练和部署语音合成模型的语音数据的收集、存储和使用,制定明确的指南和规定至关重要。
VoiceCraft 的开发者承认这些道德问题并倡导负责任的开发实践。以下是减轻潜在风险的一些关键策略:
- 模型开源:通过将 VoiceCraft 的代码和模型权重开源,研究社区可以合作开发防止滥用的保护措施。开放访问可以提高透明度,并有助于识别技术中的潜在漏洞。
- 专注于 Deepfake 检测:积极研究专为合成语音设计的 Deepfake 检测算法至关重要。在生成的语音中嵌入识别信息的水印技术也有助于防止欺诈性使用。
- 用户教育和意识:提高公众对语音合成技术的功能和局限性的认识至关重要。教育用户如何批判性地评估在线内容并识别潜在的深度伪造品可以帮助减少错误信息的传播。
- 监管框架:有必要围绕语音合成模型的开发、部署和使用制定明确的法规,以确保负责任的实践并防止滥用。这些法规应解决数据隐私、合成语音的所有权以及与其使用相关的潜在责任。
VoiceCraft 代表了语音编辑和零样本 TTS 领域的重大进步。它能够生成听起来自然的编辑和逼真的合成语音,为各个领域的各种应用打开了大门。
然而,围绕潜在偏见放大、滥用假冒和深度造假的道德考虑需要负责任的开发和部署策略。开放式协作、注重稳健的保障措施、用户教育和适当的法规对于确保 VoiceCraft 的利益最大化、同时最小化潜在风险至关重要。
正如其他文章中也反复提到的,随着语音合成(克隆)(或一般的人工智能)领域的不断发展,在技术创新和道德责任之间取得平衡将至关重要。
更多AI音频内容,请访问同期录音网“AI音频技术频道”
https://www.locationsound.cn/aiaudio