AI文生语音逼真度再突破!ChatTTS:开源对话式高可控的语音合成模型
这几天爆火的AI人工智能文本生成语音开源模型 ChatTTS(Text To Speak)不知大家看了没有,对很多人从GitHub下载源码再到电脑进行配置可能比较麻烦,现在官网ChatTTS.com上线了,完全免费使用。
ChatTTS 是一个用于日常对话的生成语音模型, 是专为 LLM 助手等对话场景设计的文本转语音模型,它支持英语和中文。模型经过 100,000+ 小时的中英文训练。HuggingFace 上的开源版本是一个 40,000 小时的预训练模型,没有 SFT。
Chattts亮点:
- 对话式 TTS:ChatTTS 针对基于对话的任务进行了优化,可实现自然且富有表现力的语音合成。它支持多位发言者,从而促进互动对话。
- 细粒度控制:该模型可以预测和控制细粒度的韵律特征,包括笑声、停顿和感叹词。
- 更好的韵律:ChatTTS 在韵律方面超越了大多数开源 TTS 模型。提供预训练模型以支持进一步的研究和开发。
除了笑声,还能控制其他东西吗?能控制其他情绪吗?
目前发布的模型中,token 级别的控制单元只有 [laugh]、[uv_break] 和 [lbreak]。在未来的版本中,可能会开源具有额外情绪控制功能的模型。
免责声明
此 repo 仅用于学术目的。它旨在用于教育和研究用途,不得用于任何商业或法律目的。作者不保证信息的准确性、完整性或可靠性。此 repo 中使用的信息和数据仅用于学术和研究目的。数据来自公开来源,作者不对数据主张任何所有权或版权。
ChatTTS 是一款功能强大的文本转语音系统。然而,负责任地、合乎道德地使用这项技术非常重要。为了限制 ChatTTS 的使用,在 40,000 小时模型的训练过程中添加了少量高频噪音,并使用 MP3 格式尽可能压缩音频质量,以防止恶意行为者将其用于犯罪等目的。同时,作者内部训练了一个检测模型,并计划在未来将其开源。
同期录音网测试
我们从网络上找来一段文字输入进去,
“现在有那么多所谓学配音的广告,一期一期的割韭菜,来看看chattts吧,还需要吗?”,共生成了五段语音,最后一段为男声。
听了这五段,我们认为作者自称“文生语音天花板”一点不夸张,在我们没有更细致调整的前提下,这些比较随机生成的语音已经基本没有AI味,虽然品质有些差强人意,但作者也特别说明了,是在模型训练中加入了高频噪音以及使用MP3压缩质量。
AI人工智能特别是生成式AIGC的大发展一定会改变现有影视制作方方面面。聚焦AI音频技术,请访问同期录音网“AI音频技术频道”