Pro Tools 语音转文本 全面解析 上 独家

Speech To Text(语音转文本) 是 Pro Tools 2025.6 版本的最引人注目新功能之一,这个功能可以将任何语音内容转换为文本,并直接显示紧挨着音轨下方。通过我们第一时间测试使用,希望带给大家详细的相关介绍,包括它的主要功能、基本操作,讨论目前存在的问题,避免入坑。(内容较多,分为上下两期)
一、主要功能

1.通过AI模型将语音Transcribed(转录)成文本,显示在设置音轨的下方,并在播放工程时,语音对应的文本会像卡啦OK一样高亮并跟随移动;而点击轨道上的文本或者文本窗的某个字或词语时,会即时定位到对应的语音内容。
2. 除了在音轨下方显示,还有一个独立的操作窗口 (Window > Transcript),集成所有的转录文本,并可进行文本搜索。其中,Timeline 标签里展示的文本对应的是时间线上启用的素材片段;Files 标签里则对应全部转换过的音频文件,包括在片段列表中部分。

3. 转换的文本可以直接复制,那么在录制ADR时就可以直接发送给演员;支持两种方式:从素材片段右键选项卡复制,或从 Transcript window 复制。复制文本后可以在轨道上进行粘贴,对应的音频就会被粘贴到轨道上。

4. 选择目标生成语言,转换为文本时直接翻译成目标语言。比如这段英文语音,选择 Language Hint 为中文,最终转换成的文字会以中文显示。
二、安装&基本操作
1.Pro Tools 更新至 2025.6 后,需独立安装 Speech To Text(可从 Avid Link 获取)。
2. 可以选中某一素材片段(在轨道上或片段列表里),在右键选项卡里进行调用,此时只转换该片段;或者选中某一轨道,在右键选项卡里勾选“Keep Track Transcribed”,则转换该轨道上所有素材片段,包括之后该轨道新增的片段。
提示:即使选择某一素材片段,Speech To Text 转换的仍是其所在的整个文件;所以如果文件较长可能会花费较长时间。不过好在转换过程是在后台进行的,不影响在 Pro Tools 里继续进行其他操作。
如果只需要转换某一片段,需要将其生成为独立音频文件(Edit > Consolidate Clip)。

3. View > Track Transcription Lane,勾选后转换的文本会显示在轨道上波形下方;文本显示量取决于轨道的缩放程度。
另外可以将轨道视图切换为 Transcript,则转换的文本会覆盖显示在波形上层;缩小视图时文本会自动切换成多行显示。
4. 设置窗口:Setup > Transcription Settings.
- 选择特定目标语言而非默认的Multilingual,可以提升准确率,同时缩短转换所需时间。
- 选择 Individual Channels,转换过程中会分别分析文件中每一轨;所以如非必要,可以选择某一轨 (Center Channel Only/ First Channel Only) 或 Summed Channels 进行分析。
5. 如果经过转换的音频文件在另一个 session 打开后看不到对应文本,右键运行Reload Transcription Data。
转换生成的文本会被优先写入音频文件本身(除了不支持写入的文件类型如MXF、只读的WAV/AIFF),同时也存储在 session 文件夹下的 .ptadb文件中,所以确保不要人为删除这些文件。
语音转文本的应用市面上已经有很多,但 Pro Tools 此次将这一功能集成在 DAW 内部,对于影视声音中的对白编辑、ADR制作以及播客、访谈类音频节目的编辑,多语言的制作以及音乐制作,都会有一定的效率提升,它能提升语言及歌唱类音频制作效率,优化工作流程,为创作者提供更多便利和创作空间。
不过,实际使用过程中我们发现仍存在一些问题,尤其对于中文环境的支持方面,以及对未来的展望将在下篇详细介绍。
END
*本文为“弥声DiffuSound工作室”的专栏内容,作者:谢杉