加载中…
  • 双域名启用:电影声音
  • 加入VIP会员,看更多内容vip
  • Pro Tools国际认证课
  • S短片节-声音人的节日
  • 购物车
  • 我的帐户

{{userData.name}}

个人中心
后台
{{item.count}}
{{textHint.loading}}
  • {{data.name}}({{data.count}}){{data.name}}
投稿
  • 资讯
    • 限免/优惠
    • 奖项
    • 行业
    • 电影声音研学中心
    • 软件新闻
    • 硬件新闻
  • 学知
    • 中国声音
    • 声音人
    • 声音制造
    • 声音设计
    • 声景与实地录音
    • 声音艺术
    • 游戏声音
    • 影视音乐
  • 技术
    • 来团
    • #AI音频技术频道#
      • 音干分离
    • 麦克风频道
      • 同期麦克风
      • 无线麦克风
      • 后期麦克风
      • 麦克风知识
      • 麦克风综合讯息
    • 前期/同期硬件
      • 录音机
    • 后期技术
      • 后期硬件
        • 音频接口
        • 监听耳机/音箱
        • 调音Mixer / 控台 Control
      • 后期软件
        • 音频插件 Plug-in
          • 免费 限时 Free
          • EQ 均衡类
          • Dynamics 动态类
          • Reverb/Delay混响及延迟
          • DeNoise 音频修复类
          • Effect 效果类
          • Meter 计量 显示 测量类
          • SoundField 声场 空间类
          • Instrument 乐器类
          • modulate Harmonic pitch 调制 谐波 移调类
          • others 其它类
        • DAW
          • ProTools
        • Krotos声音设计
      • 音效
      • 空间音频/沉浸声/全景声
      • VR/AR/XR声音
    • 周边配件
    • 综合
  • 专题
    • 24-25颁奖季
    • 纪录片声音制作
    • 短片声音制作
    • 23-24颁奖季
    • NAB2024
当前位置:首页-#AI音频技术频道#,软件新闻-正文

字节文本生成语音TTS也来了,面向专业声音制作

#AI音频技术频道#, 软件新闻1年前003.29K0

文章目录[隐藏]

  • 新的时代序幕已徐徐拉开!
  • 昨天刚介绍完一款AI语音逼真度突破“文字生语音”工具:AI文生语音逼真度再突破!ChatTTS:开源对话式高可控的语音合成模型。夜里我们又紧急介绍了第一个AI人工智能的文本生成音效,震惊!AI从文本提示生成任何可以想象的声音
  • 这一段男声的“中文生语音”非常惊艳,让我们现在还是有些怀疑是不是直接生成的,可以说中文语音接近某配音明星了,且由于学习的是英文原音的音色,生成中文后比一般配音员语音饱满感更强。
  • 注意看更改后这个女生的嘴周围,还是有一点点的飘动,不过这只是初代,而且对于一般的应用也够了。
    • 文章目录

新的时代序幕已徐徐拉开!

昨天刚介绍完一款AI语音逼真度突破“文字生语音”工具:AI文生语音逼真度再突破!ChatTTS:开源对话式高可控的语音合成模型。夜里我们又紧急介绍了第一个AI人工智能的文本生成音效,震惊!AI从文本提示生成任何可以想象的声音

 

今天字节跳动又推出的一系列大规模自回归文本到语音(TTS)模型:Seed-TTS,能够生成与人类语音难以区分的AI语音。它在语音上下文学习、说话人相似度和自然度方面表现出色具有一定的专业水平,且通过微调还可进一步提升主观评分。

 

Seed-TTS能够合成具有人类水平的自然度和表现力的语音。它还可以基于简短的注册语音片段以零样本方式创建可控的高保真合成语音。我们认为,该模型在专业声音制作领域已经具备一定应用能力,在虚拟助手、广播剧及有声读物、视频配音等应用中具有巨大潜力。

 

现在就先一起看一下字节官方发布一些的案例。在近百条案例中,大部分是针对类似与影视作品中对白、配音、解说的生成应用,字节这套模型应该是学习了很多影视作品。Seed-TTS展示了强大的文生语音能力,几乎可替代许多语音类工作,包括替代人工配音。

零样本情境学习-英文样本 

  • 下面的内容是零样本情境学习,从英文样本提示(Zero-shot In-context Learning)学习,按照文本生成英文及中文:

 

原音

英文生成

中文生成

 

这一段男声的“中文生语音”非常惊艳,让我们现在还是有些怀疑是不是直接生成的,可以说中文语音接近某配音明星了,且由于学习的是英文原音的音色,生成中文后比一般配音员语音饱满感更强。

 

  • 字节还支持基于扩散的语音生成模型(Fully Diffusion-based Speech Generation 完全基于扩散的语音生成),还是这段文字,更接近日常说话,听一下:

 

再听女声:

英文原音

英文生成

中文生成

上面这一段女声生成语音的英文也非常不错,但生成的中文对比上面的中文男声有一定的差距,差距在于男声基本听不出是从外语学习后生成出来的,但女声可以明显听出有些外国人的口音,但又不像真正的外国人说中文,所以不真实感就比较明显。

 

再听动画配音类:

英文原音

英文生成

中文生成

这一段类动画人物的配音也非常强,音色模仿几乎完全一样,中英文生成均保留了原音特性,如果真的是即时快速生成,现在就可以下结论,以后的动画类配音基本可以不需要人了。

 

零样本情境学习-中文样本

从中文样本提示学习,按照文本生成中文及英文是另一种方式,从中文生成的语音也很不错,基本达到专业要求,生成英文的停顿略奇怪,有一点点AI味。

 

另外,还可以通过“Speaker Fine-tune”进行细节调整后,这样就与真人更加接近了。

 

Seed-TTS提供了对情感等语音属性的优越控制能力,并能生成高度表达性和多样性的语音,有六种不同的情绪可进行控制:

字节文本生成语音TTS也来了,面向专业声音制作 - 第1张

 

  • Seed-TTS模型提出了一种方法用于语音分解,以及一种增强模型鲁棒性、说话人相似度和控制性的强化学习方法。更改语音的功能非常强大,如果需要为一段语音更换成另外的语音音色,只需上传原音,再上传参考音色就可以了。

 

句中改词

再看Seed-TTS基于AIGC强大的改词功能。中文改词我们也听过一些模型,Seed-TTS是目前做的最好的!至少在这个样例中,达到了专业的要求,超出声音编辑的能力,听众几乎难以听出差别。

 

改语言改词改口型

那有人又问了,如果改了词了口型变了对不上了怎办?简单!AI直接给你改画面人物的口型!请看:

注意看更改后这个女生的嘴周围,还是有一点点的飘动,不过这只是初代,而且对于一般的应用也够了。

 

系统概述

字节文本生成语音TTS也来了,面向专业声音制作 - 第2张图 1.Seed-TTS 推理概述。(1)语音分词器从参考语音中学习分词。(2)自回归语言模型根据条件文本和语音生成语音标记。(3)扩散变压器模型以从粗到细的方式在给定生成的语音标记的情况下生成连续的语音表示。(4)声学声码器从扩散输出中产生更高质量的语音。

特色

生成与人类语音难以区分的高质量语音

上下文学习,使语音生成更自然

微调后可进一步提升主观评分

对情感等语音属性具有优越的控制能力

生成高度表达性和多样性的语音

自蒸馏方法用于语音分解

强化学习方法增强模型鲁棒性

这两天的AI生成音频工具密集发布令人眼花缭乱,我们预计,今年AIGC生成式人工智能在对白、音乐、音效三个方面都将有达到或接近影视专业级别应用工具产生。

关注专业AI音频技术动态与应用,请看同期录音网“AI音频技术频道”

字节文本生成语音TTS也来了,面向专业声音制作 - 第3张

文章目录

  1. 新的时代序幕已徐徐拉开!
  2. 昨天刚介绍完一款AI语音逼真度突破“文字生语音”工具:AI文生语音逼真度再突破!ChatTTS:开源对话式高可控的语音合成模型。夜里我们又紧急介绍了第一个AI人工智能的文本生成音效,震惊!AI从文本提示生成任何可以想象的声音
  3. 这一段男声的“中文生语音”非常惊艳,让我们现在还是有些怀疑是不是直接生成的,可以说中文语音接近某配音明星了,且由于学习的是英文原音的音色,生成中文后比一般配音员语音饱满感更强。
  4. 注意看更改后这个女生的嘴周围,还是有一点点的飘动,不过这只是初代,而且对于一般的应用也够了。
Seed-TTS(1)句中改词(1)字节跳动(1)改口型(1)语音复刻(1)

最新文章

  • 限免通道条:AIR Channel Strip
    限免通道条:AIR Channel Strip
    免费 限时 Free, 音频插件 Plug-in
  • Steinberg 发布了功能扩展的 SpectraLayers 12,包含更强大的AI处理能力
    Steinberg 发布了功能扩展的 SpectraLayers 12,包含更强大的AI处理能力
    others 其它类, 音频插件 Plug-in
  • Nothing耳机:未来科技感的沉浸式空间音频耳机
    Nothing耳机:未来科技感的沉浸式空间音频耳机
    硬件新闻, 资讯
  • Apogee 发布新的 Clearmountain 8068 插件
    Apogee 发布新的 Clearmountain 8068 插件
    音频插件 Plug-in
  • 将观众带入 F1 :狂飙飞车的声音世界 必看影片推荐
    将观众带入 F1 :狂飙飞车的声音世界 必看影片推荐
    声音制造, 声音艺术, 声音设计
  • 高级耳机系统 Okeanos Pro推出直接传递函数(DTF)编辑器
    高级耳机系统 Okeanos Pro推出直接传递函数(DTF)编辑器
    硬件新闻, 行业, 资讯
  • Tone2 将 BiFilter for Windows 更新至 v2.5,现免费提供
    Tone2 将 BiFilter for Windows 更新至 v2.5,现免费提供
    免费 限时 Free, 音频插件 Plug-in
  • 免费插件——Analog Obsession TILTA
    免费插件——Analog Obsession TILTA
    免费 限时 Free, 音频插件 Plug-in
  • 深入剖析星球大战之《安多》第二季的出色声音:为第208集打造声音强度
    深入剖析星球大战之《安多》第二季的出色声音:为第208集打造声音强度
    声音人, 声音制造, 声音艺术, 声音设计
  • 推荐:Tritik 发布 Visu 免费实时频谱图效果插件
    推荐:Tritik 发布 Visu 免费实时频谱图效果插件
    免费 限时 Free, 音频插件 Plug-in

没有相关内容

更多文章

  • awareONE Open-Ears 沉浸开耳式耳机终于亮相
    awareONE Open-Ears 沉浸开耳式耳机终于亮相
    硬件新闻990
  • Pro Tools将原生支持M1/M2
    Pro Tools将原生支持M1/M2
    ProTools, 软件新闻3.52K
  • 奥斯卡声音奖大师访谈(视频下)
    奥斯卡声音奖大师访谈(视频下)
    声音人, 声音制造, 综合2.43K
  • Reason Studios 重新发布 ReCycle 免费软件
    Reason Studios 重新发布 ReCycle 免费软件
    免费 限时 Free, 音频插件 Plug-in1.13K
  • 南方车站的聚会 幕后视频 周周片儿 213期 Locationsound.cn(购买优惠已结束)
    南方车站的聚会 幕后视频 周周片儿 213期 Locationsound.cn(购买优惠已结束)
    周周乐儿3.07K
  • 理发师陶德 蒂姆波顿争议之作 第246期 周周片儿 Locationsound.cn
    理发师陶德 蒂姆波顿争议之作 第246期 周周片儿 Locationsound.cn
    周周乐儿3.38K

没有相关内容

热门文章(一年内)

  • SSG Audio 推出母带处理 AI 插件
    SSG Audio 推出母带处理 AI 插件
    2.43W
  • 常见Pro Tools 错误代码含义及修复(1)
    常见Pro Tools 错误代码含义及修复(1)
    1.02W
  • 姗姗来迟,Pro Tools 2024.10发布
    姗姗来迟,Pro Tools 2024.10发布
    8.41K
  • Kiive Audio 推出重新设计的 NFuse 总线处理器插件
    Kiive Audio 推出重新设计的 NFuse 总线处理器插件
    8.17K
  • 常见Pro Tools 错误代码含义及修复(2)
    常见Pro Tools 错误代码含义及修复(2)
    7.93K
  • 索尼推出全新MDR-M1封闭式监听专业耳机
    索尼推出全新MDR-M1封闭式监听专业耳机
    7.11K
  • 预测Apple 2025 年 Mac 电脑发布计划
    预测Apple 2025 年 Mac 电脑发布计划
    6.79K
  • 三款免费混响插件,快下载!
    三款免费混响插件,快下载!
    6.56K

没有相关内容

蛇年大吉!

分类推荐

没有相关分类

标签精选

  • Pro Tools
  • AI
  • 奥斯卡
  • Zoom
  • 杜比全景声
  • 声音设计
  • iZotope
  • 声音制作
  • 拟音
  • Avid

没有相关分类

最新视频

  • 就这么屌,与ChatGTP-4o对话就完成角色配音
    就这么屌,与ChatGTP-4o对话就完成角色配音
    1年前
  • 第96届奥斯卡获奖公布 Ludwig Göransson 颁奖视频
    第96届奥斯卡获奖公布 Ludwig Göransson 颁奖视频
    1年前

没有相关内容

联系我们

请加微信个人号:locationsound

关于

  • 联系
  • 关于我们
  • 支持我们
  • 加入我们

扫一扫关注公众号

扫一扫
"Copyright © 2015-至今 同期录音网 ICP备2021023776-2
126 次查询在 1.362 秒, 使用 55.19MB 内存