频谱图-声音制作必须了解的 RX11优惠来团

市面上存在无数音频分析工具,它们能为我们揭示音频的各类信息——从峰值音量、动态范围到立体声场分布等不一而足。这些工具大多有一个共同特征:它们通过视觉化形式呈现数据,有时使用数字,有时借助图表。
频谱图(Spectrogram)正是其中一种经典工具。究竟什么是频谱图?它能传递哪些关键信息?了解读懂频谱图是每个声音后期工作者必备的技能之一,这里将结合iZotope RX11进行介绍,结尾还有优惠信息,别错过。
关于RX11: iZotope RX11正式发布!新功能一览 中字视频|RX11的音干分离与音乐再平衡 音干分离系列番外篇|2025 TEC奖最终获奖,PTRX11森海舒尔等获奖
1
What is a spectrogram?
什么是频谱图?
频谱图是音频的视觉表现形式,它在一个图表中同时展示了时间、频率和振幅。通过视觉方式,频谱图能够揭示音频中的问题,如宽带噪声、电气噪声或间歇性噪声等等,这有助于我们在声音编辑或音乐混音时做出决策。由于其极高的细节展示能力,频谱图在后期制作中特别有用——因此,在像iZotope Insight和RX这样的工具中找到频谱图也就不足为奇了。
这里翻译一段关于频谱图与RX的视频,更直观:
频谱图与波形
在音频软件中,我们习惯于看到波形,它显示了信号振幅随时间的变化。然而,频谱图则显示了信号中频率随时间的变化。振幅则通过亮度或颜色的变化在第三个维度上表示。
让我们在传统波形视图和频谱图中查看一个音频文件。首先,这是传统波形视图中一个从60赫兹升至12千赫兹的正弦波:

以传统波形显示的正弦波音高
你会注意到,波形显示了振幅随时间的变化,但我们无法真正看到各个频率上发生了什么。我们可以看到,在整个文件持续时间内,正弦波的幅度保持一致,但我们无法清楚地了解音高或频率随时间的变化情况。
下面是使用频谱图显示的同一个音频文件。

在频谱图视图中,垂直轴显示的是以赫兹为单位的频率,水平轴代表时间(就像波形显示一样),而振幅则通过亮度来表示(所以有时也会叫光谱图,光频谱图)。
黑色背景表示静音,而明亮的橙色曲线则是音高逐渐升高的正弦波。这使我们能够查看一系列频率(显示底部为最低频率,顶部为最高频率)以及不同频率下的声音事件的响度。响度大的事件会显得明亮,而响度小的事件则会显得暗淡。
现在,让我们来看一个更复杂的音频示例:人声。
这是通过波形显示的一段简短的口语短语,我们在这里看到的是口语单词随时间变化的振幅。

如果我们将波形视图切换到频谱图视图,我们会看到许多在波形视图中无法看到的内容。
这就是为什么在音频编辑中,拥有详细的频谱图显示如此重要:它有助于清晰地展示你可能需要修复的问题。
成功的音频修复关键在于你能否正确分析情况——就像医生识别出指向某种疾病的症状一样。
不断训练你的耳朵以区分需要修正的噪音和音频事件可能对音频人来说是一项终身的任务。幸运的是,正如之前所解释的,频谱图技术通过视觉化地表示这些音频事件,使这项任务变得更加容易。
2
Spectrogram/Waveform displays in RX
RX中的频谱图/波形显示
RX 配备了一种先进的频谱图显示功能,能够提供比其他频谱图更高的时间和频率分辨率,在处理音频时能够看到前所未有的细节层次。
在频谱图/波形主显示区域的上方,会显示整个音频文件的波形概览。波形概览始终显示整个音频文件,并且还会显示在主显示区域中做出的任何选区。
可以通过调整频谱图下方左侧的波形/频谱图不透明度滑块,来查看传统的波形显示,或者两者的混合显示。

任何优秀的音频修复和恢复可视化工具的目标,都提供有关可听问题的更多信息。这不仅有助于为声音编辑决策提供依据,而且在频谱图显示的情况下,还可以提供新颖且令人兴奋的音频编辑方式——尤其是与波形显示结合使用时。
如何微调显示
并非所有频谱图都是相同的。用于计算这种视觉显示的算法称为“快速傅里叶变换”,简称FFT。许多带有频谱图显示的插件都允许调整FFT的大小,但这对于音频修复和恢复意味着什么呢?改变FFT大小会改变算法计算频谱图的方式,从而使其外观不同。根据正在处理和可视化的音频类型,改变FFT大小可能会有所帮助。
通常,较大的FFT尺寸会提供更高的频率细节,这称为频率分辨率;而较小的FFT尺寸则会提供更多的时间细节,这称为时间分辨率。
如果正在尝试识别爆破音、麦克风挑杆操作噪音或其他浑浊的低频信息,那么在频谱图设置中选择较大的FFT尺寸会有所帮助。如果正在尝试识别高频事件,或者处理瞬态信号(如打击乐或鼓循环),则选择较小的FFT尺寸。
3
Using the spectrogram to solve audio problems
使用频谱图解决音频问题
RX 中的工具可以帮助修复多种不同的音频问题。识别问题的类型有助于确定最合适的工具和方法来处理问题。
这里整理了一些技巧,帮助频谱图中识别七种常见的音频问题类型,并推荐 RX 中的模块来快速有效地消除它们,我们将涵盖的音频问题包括:
-
嗡嗡声 (Hum)
-
电流声 (Buzz)
-
嘶嘶声和其他宽带噪声 (Hiss、broadband noise)
-
咔嗒声、爆裂声和其他短脉冲噪声 (Clicks, pops, short impulse noises)
-
削波或失真 (Clipping or distortion)
-
间歇性噪声 (Intermittent noises)
-
间隙空白和信号丢失 (Gaps and drop outs)
嗡嗡声 Hum
嗡嗡声Hum通常是录音信号链中某处电气噪声的结果。它通常表现为 50 Hz 或 60 Hz 的低频音调。

嗡嗡声在频谱图上的显示
通过放大低频区域,你可以看到嗡嗡声。它会显示为一系列水平线,通常在 50 Hz 或 60 Hz 处有一条明亮的线,并在其谐波频率处有几条较浅的线。
要消除嗡嗡声,可以使用 RX 的 De-hum 模块。当嗡嗡声的频率与有用的瞬态信号没有重叠时,它的效果最佳。
电流声 Buzz
在某些情况下,电气噪声会延伸到更高的频率,并表现为电流声。这种声音也可能来自荧光灯、电机以及某些摄像机麦克风。

电流声在频谱图上的显示
你可以在高频区域找到电流声,它会显示为一条细长的水平线。
要消除 400 Hz 以上的电流声,可以使用 Spectral De-noise 工具。对于低频电流声(类似于嗡嗡声),De-hum 工具更为有效。
嘶嘶声和其他宽带噪声 Hiss
与嗡嗡声和电流声不同,宽带噪声并不集中在特定频率上,而是分布在整个频谱范围内。磁带嘶嘶声以及来自风扇和 HVAC 系统的噪声就是典型的例子。

频谱图上显示的嘶嘶声
在频谱图显示中,宽带噪声通常表现为围绕主要音频内容的细小斑点,如上图所示。
使用 Spectral De-noise 工具 可以消除这些类型的宽带噪声。
咔嗒声、爆裂声和其他短脉冲噪声 Clicks/Pops
咔嗒声和爆裂声常见于从黑胶唱片、虫胶唱片和其他带凹槽的介质中录制的音频中。它们也可能由数字错误引起,例如以过低的缓冲区设置录制到 DAW 中,或是音频编辑不当,未处理好的过零问题。甚至口腔咔嗒噪音,如舌点击声和嘴唇咂嘴声,也属于这一类。

咔嗒声和爆裂声在频谱图上的显示
你会看到这些短暂的脉冲噪声在频谱图中显示为垂直线。咔嗒声或爆裂声越大,线条就越亮。上图展示了从黑胶唱片转录的音频中出现的咔嗒声和爆裂声。
对于一般的咔嗒声和爆裂声,可以使用 De-click 模块来识别、隔离、减少并消除它们。如果正在处理人声中的口腔噪音(如舌点击声),则可以使用 Mouth De-click 模块。
削波或失真 Clip
数字削波是音频制作中一个非常常见的问题。当信号过大,超出模数转换器、调音台、现场录音设备或信号链中其他增益阶段的记录能力时,就会发生削波。这会导致失真,并在信号的峰值处丢失音频信息。

削波波形
要识别削波音频,需要使用波形显示而不是频谱图。削波表现为波形的“平顶”部分。
放大波形,可以看到由于削波而被截断的波形部分。

左右为被削波波形的截断峰值
注意:有时,经过砖墙限制器处理的音频也会显示为“平顶”,但这并不一定意味着它会像被截断的削波波形那样听起来严重失真,可以放大查看单个波形的顶部是否真的被削波。
要修复削波问题,可以使用 De-clip 工具,它可以智能地重新绘制波形,使其看起来像是信号未被削波时的自然状态。
间歇性噪声 Ring
间歇性噪声与嘶嘶声和嗡嗡声不同——它们可能偶尔出现,并且在音高或持续时间上不一致。常见的例子包括咳嗽声、喷嚏声、脚步声、汽车喇叭声、手机铃声、鸟叫声和警笛声。
这些噪声可能以多种方式表现出来。以下是几个例子:

铃声在频谱图上的显示
在频谱图中,铃声通常表现为高频区域的明亮垂直线或斑点。

咳嗽声在频谱图上的显示
咳嗽声通常显示为中高频区域的短暂爆发,如上图所示。
使用 Spectral Repair 工具 可以隔离这些间歇性声音,分析其周围的音频,并对它们进行衰减或替换。
间隙空白和信号丢失 Gap/Drop
有时,录音中可能会出现短暂的音频缺失或损坏部分。这些被称为间隙或丢失。

丢失在频谱图上的显示
这些丢失通常对眼睛和耳朵都非常明显,并在频谱图中显示为空白区域。
使用 Spectral Repair 工具 和 Ambience Match 工具 可以替换缺失的音频元素,并创建一致的音轨。
4
How to read spectrograms:
interpreting time, frequency, and amplitude
如何阅读频谱图:解读时间、频率和振幅
下图是单词“spectrogram”的录音及其在频谱图中的显示效果。底部从左到右的轴表示时间的推移,以秒为单位。右侧从上到下的轴表示频率,最低频率在底部,较高频率在顶部,橙色越亮,表示该频段的振幅或音量越大。

iZotope RX 11 中的音频录音频谱图
在上图中,靠近频谱图左上角光标的最亮橙色部分表明,音频中最响亮的部分由较高音调频率组成。如果我们查看右侧的轴,这个区域对应的频率大约在 7 kHz 到 15 kHz 之间。这部分是单词“spectrogram”中字母 S 的嘶嘶声。
查看底部的时间轴,我们可以看到这个 S 音出现在音频片段的大约 0.3 到 0.4 秒处。接下来的部分(0.5 到 1.5 秒之间)显示了单词其余部分的共振较低音调,主要集中在 100 Hz 到 500 Hz 之间。这就是为什么明亮的橙色在图像中向下移动的原因。
5
Applications of spectrogram in audio analysis and music
频谱图在音频分析和音乐中的应用
频谱图在音频清理和音乐制作中非常有用。在混音时,频谱图可以显示频率是否失衡,例如高频或低频过多。它还可以帮助可视化录音中的问题,例如音轨的泄漏,如下图所示。

频谱图显示人声短语末尾点击轨道的泄漏
频谱图也用于其他音频清理修复任务。在以下示例中,对白录音中有一个烟雾探测器的哔哔声。我们可以在下面的频谱图中看到它被圈出。使用 RX 11,我们可以突出显示有问题的噪声,并使用 Spectral Repair 将其移除。

RX 11 显示对白录音中烟雾探测器哔哔声的频谱图
6
Spectrograms vs. spectrographs
频谱图与频谱仪
虽然“频谱图”(spectrogram)和“(光)频谱仪”(spectrograph)有时(错误地)被互换使用,但两者之间存在着重要的区别。频谱仪是一种分析器,它将接收到的音频信息转换为图形输出,频谱仪的输出就是频谱图。例如,上述截图中所展示的是由iZotope RX 11生成的频谱图,这意味着,在这个例子中,RX 11就是一个软件频谱仪。
7
Applications of spectrogram in audio analysis and music
立即开始使用频谱图
频谱图非常实用,因为它们能显示所有频率,为我们提供音频随时间变化的3D可视化效果。通过简单的波形,我们可以看到明显的故障,如咔嗒声和爆破音。
频谱图提供的额外细节层对于理解音频如何受到外部噪声以及我们自己的混音决策的影响至关重要!
FilmSound.cn:电影声音制作最经典必用的RX绝大部分功能都是基于频谱图,了解熟知频谱图是声音工作中最基础的知识,希望这篇文章能让大家更清晰。
iZotope 正在为RX11进行到目前为止的最优活动,还没有或者没升级到RX11版本的可以入手了!
扫描下方二维码即参与活动!
(对同期录音网/电影声音研学中心等我们往期各学员及VIP,可参加满减活动,满5000元优惠100元,满3000元优惠50元,满1000元优惠15元。咨询请联系微信号locationsound)