字节文本生成语音TTS也来了，面向专业声音制作

今天字节跳动又推出的一系列大规模自回归文本到语音(TTS)模型：Seed-TTS，能够生成与人类语音难以区分的AI语音。它在语音上下文学习、说话人相似度和自然度方面表现出色具有一定的专业水平，且通过微调还可进一步提升主观评分。

Seed-TTS能够合成具有人类水平的自然度和表现力的语音。它还可以基于简短的注册语音片段以零样本方式创建可控的高保真合成语音。我们认为，该模型在专业声音制作领域已经具备一定应用能力，在虚拟助手、广播剧及有声读物、视频配音等应用中具有巨大潜力。

现在就先一起看一下字节官方发布一些的案例。在近百条案例中，大部分是针对类似与影视作品中对白、配音、解说的生成应用，字节这套模型应该是学习了很多影视作品。Seed-TTS展示了强大的文生语音能力，几乎可替代许多语音类工作，包括替代人工配音。

零样本情境学习-英文样本

原音

英文生成

中文生成

字节还支持基于扩散的语音生成模型（Fully Diffusion-based Speech Generation 完全基于扩散的语音生成），还是这段文字，更接近日常说话，听一下：

再听女声：

英文原音

英文生成

中文生成

上面这一段女声生成语音的英文也非常不错，但生成的中文对比上面的中文男声有一定的差距，差距在于男声基本听不出是从外语学习后生成出来的，但女声可以明显听出有些外国人的口音，但又不像真正的外国人说中文，所以不真实感就比较明显。

再听动画配音类：

英文原音

英文生成

中文生成

这一段类动画人物的配音也非常强，音色模仿几乎完全一样，中英文生成均保留了原音特性，如果真的是即时快速生成，现在就可以下结论，以后的动画类配音基本可以不需要人了。

零样本情境学习-中文样本

从中文样本提示学习，按照文本生成中文及英文是另一种方式，从中文生成的语音也很不错，基本达到专业要求，生成英文的停顿略奇怪，有一点点AI味。

另外，还可以通过“Speaker Fine-tune”进行细节调整后，这样就与真人更加接近了。

Seed-TTS提供了对情感等语音属性的优越控制能力，并能生成高度表达性和多样性的语音，有六种不同的情绪可进行控制：

Seed-TTS模型提出了一种方法用于语音分解，以及一种增强模型鲁棒性、说话人相似度和控制性的强化学习方法。更改语音的功能非常强大，如果需要为一段语音更换成另外的语音音色，只需上传原音，再上传参考音色就可以了。

句中改词

再看Seed-TTS基于AIGC强大的改词功能。中文改词我们也听过一些模型，Seed-TTS是目前做的最好的！至少在这个样例中，达到了专业的要求，超出声音编辑的能力，听众几乎难以听出差别。

改语言改词改口型

那有人又问了，如果改了词了口型变了对不上了怎办？简单！AI直接给你改画面人物的口型！请看：

系统概述

图 1.Seed-TTS 推理概述。（1）语音分词器从参考语音中学习分词。（2）自回归语言模型根据条件文本和语音生成语音标记。（3）扩散变压器模型以从粗到细的方式在给定生成的语音标记的情况下生成连续的语音表示。（4）声学声码器从扩散输出中产生更高质量的语音。

特色

生成与人类语音难以区分的高质量语音

上下文学习，使语音生成更自然

微调后可进一步提升主观评分

对情感等语音属性具有优越的控制能力

生成高度表达性和多样性的语音

自蒸馏方法用于语音分解

强化学习方法增强模型鲁棒性

这两天的AI生成音频工具密集发布令人眼花缭乱，我们预计，今年AIGC生成式人工智能在对白、音乐、音效三个方面都将有达到或接近影视专业级别应用工具产生。

关注专业AI音频技术动态与应用，请看同期录音网“AI音频技术频道”