音频水印无法解决人工智能语音操纵的真正危险
人工智能生成的语音带来了诸多益处,比如加速有声读物的制作、优化营销和视频游戏中的配音等。然而,这项技术也带来了巨大风险,尤其是在诈骗或政治虚假信息中进行恶意模仿时。
为应对这些担忧,一些国家出台了规定,要求人工智能系统在所有由人工智能生成的内容(包括音频)上添加水印——这是一种隐藏信号,表明该内容是由人工智能创建的。然而,这种方法存在局限性。不法分子可以从人工智能生成的音频中去除水印,而且仅依靠水印并不能防止模仿诈骗或虚假信息的传播。
人工智能生成内容的音频水印技术涉及在人工智能生成的音频文件中嵌入一种不易察觉的信号,这种信号只有计算机才能检测到。这些水印对听众而言是不可见的,从而保持了音频质量。然而,常见的操作,如文件压缩,可能会去除水印。开发者尝试通过将水印嵌入音频轨道的每个部分来增强其抗损性,这样即使文件被裁剪或编辑,水印仍然可以被检测到。尽管如此,即使是最先进的水印技术也无法阻止技术高超且动机明确的攻击者将其去除。
不完美的保护措施价值有限,尤其是在水印无法提供真正防御的紧急情况下。例如,如果诈骗者模仿一个受信任的声音,如家庭成员的声音,受害者不会停下来检查是否存在隐藏的水印——他们很可能会上当受骗。即使他们确实检查了,水印的缺失也并不能证明内容的真实性。因为虚假音频可能是在没有水印规定的国家使用人工智能工具创建的,或者是由人类模仿者创建的。为了有效打击人工智能生成的音频诈骗,政策制定者应该更多地关注公众意识宣传活动,而不是仅仅依赖技术解决方案。
同样,在政治领域,音频水印也无法阻止虚假信息的传播。今年早些时候,一个模仿美国总统乔·拜登的机器人电话敦促接听者不要投票。即使这段人工智能生成的音频包含了水印,除非接听者的手机在每次通话时都进行录制并检查是否为人工智能生成的音频——这对于许多人来说是一个监控噩梦,并且在要求双方同意录音的州可能是非法的——否则,接听者仍然无法知道音频是假的。即使专家后来检测到了水印并提醒公众,但损害已经造成。
音频水印无法减轻与人工智能生成的声音克隆相关的风险。这一挑战不仅是技术性的,也是社会性的——即人们如何消费和信任媒体。除非个人能够批判性地评估他们消费的媒体,否则不法分子将继续利用人工智能,无论是否有水印。