为什么AI生成的音频如此难以检测
这种技术的存在,以及检测到由其创建的内容的困难,已经引发了混乱。
虽然已经出现了数十种工具和产品来尝试检测AI生成的音频,例如:魔高一尺道高一丈?用AI来判断AI声音or真人声音
但专家说,这些程序本质上是有限的,并不会为任何人提供一种快速而可靠地确定所听到的音频是否来自真实人物的方法。
Deepfake检测系统的工作方式与人类听觉大不相同。它们分析音频样本,寻找像是由程序生成时留下的缺失频率等痕迹。通常,它们关注于言语的特定方面,比如说话者似乎如何呼吸或者他们的声音音调上下变化的程度。
Reality Defender,一家知名的深度伪造检测公司,表示它利用人工智能来检测人工智能。就像生成式人工智能通过对大量真实的、现有数据进行算法训练来生成逼真的新媒体一样,Reality Defender的员工向其算法提供了真实和人工智能生成的内容。该公司的首席执行官本·科尔曼(Ben Colman)表示,公司清楚地标注了什么是真实的,什么是虚假的,希望系统能学会估计某件事情是由人工智能生成的可能性有多大。
科尔曼表示:“我们从不说百分之百。”“我们的最高概率是99%,因为我们从来没有绝对真相。所以这完全是概率性的。”
科尔曼表示,人类声音和语言的广泛范围使得这项工作变得困难。
“对于声音来说,它是分布在不同地区、语言和方言以及年龄段的人群。因此,我们必须考虑到每一个变量,”他说。
但是,软件是一种固有限制的深度伪造检测方法,专注于识别现有的深度伪造算法,使其落后于新的创新,计算机科学和电话网络专家、佛罗里达大学教授帕特里克·特雷纳(Patrick Traynor)表示。
“机器学习非常擅长告诉你有关它之前见过的东西,但对于它之前没有见过的事情,它并不那么擅长推理,”特雷纳说道。
“这个领域存在很多炒作,我非常怀疑。”他说道。
罗切斯特大学的机器学习研究员尼尔·张表示,鉴于缺乏现有基准,评估该领域特定检测工具的工作效果很困难,但目前可用的选项“总比没有强”。
“公司在竞相制作过得去的深度伪造作品和试图检测它们之间的资金差距很大,”他说。“很难获得检测方面的资金,但很容易获得用于大型语言模型和生成式人工智能的资金。”
这种差距也反映在学术研究中,因为学术界的研究进展速度很慢,无法跟上人工智能行业的迅速发展。他表示,许多深度伪造检测工具,尤其是学术领域的工具,依赖于过时的数据,这些数据与当前的深度伪造制作工具不匹配。
“这些检测工具在某些数据集上可以取得非常好的性能,但在现实世界中的表现可能就不那么好了,”张说。
这项尚未生效的法规已经落后于该行业,有大量公司提供免费或廉价的文本转语音服务,这些服务能够模仿真实的声音。
“如果你简单地搜索基于人工智能的假语音,你会立即得到数十次搜索结果,”马里兰大学巴尔的摩分校信息系统教授范德纳·简贾表示。“所有这些东西都没有任何限制,几乎是犯罪。”
加州大学伯克利分校的数字取证、分析和信息误导专家汉尼·法里德表示,尽管软件分析可以帮助,但可靠地识别深度伪造的最佳方法是专家分析、关于音频来源的报道,以及对录音背景的批判性思考。
尽管许多专家认为检测方法不可靠,但人类仍然可以通过听取一些线索来判断音频录音是否是合成的。目前的深度伪造很少包含人在单词之间呼吸的情况,它们通常会在每个单词之间均匀地间隔开来,这与真实人类说话的方式不同。
“我们必须退回到更简单的东西,”法里德说道。“谁发布了这个?这个可信吗?对你来说,大明星泰勒·斯威夫特会告诉你她正在免费送厨房用具吗?常识可以帮助很多。”