魔高一尺道高一丈?用AI来判断AI语音or真人语音
即使是最敏锐的“专业耳朵”也难以察觉人工智能深度伪造的声音 – 正如最近在 Meta 上假冒美总统拜登的机器人电话和假冒的泰勒·斯威夫特的炊具广告所证明的那样,但 Klick 实验室的科学家表示,最好的方法实际上可能归结为使用AI人工智能来寻找人类的本质。
受到使用声音生物标记物帮助改善健康结果的临床研究的启发,以及他们对《银翼杀手》等科幻电影的迷恋,Klick 研究人员创建了一种音频深度伪造检测方法,可以利用生命迹象,例如呼吸模式和微停顿在言语中。
Klick Labs 高级副总裁兼该研究的首席研究员 Yan Fossat 表示:“我们的研究结果凸显了使用声音生物标记作为标记 Deepfake 的新方法的潜力,因为它们缺乏真实内容固有的生命迹象。” “这些迹象通常是人耳无法察觉的,但现在由于机器学习和声音生物标记而可以辨别。”
发表在开放期刊“ JMIR 生物医学工程”上的“使用语音暂停模式进行 Deepfake 语音检测的调查:算法开发和验证”,描述了如何使用声音生物标记物以及机器学习来区分 Deepfake 和真实音频可靠的精度。作为研究的一部分,Fossat 和他在 Klick Labs 的团队对来自不同背景和口音的 49 名参与者进行了观察。然后,根据参与者提供的语音样本对 Deepfake 模型进行训练。并为每个人生成 Deepfake 音频样本。在分析了语音过程中由呼吸、吞咽和认知过程等生物行为引起的言语停顿,计算了与语音停顿曲线相对应的五个音频特征。科学家们发现他们的模型可以区分真假,准确率约为 80%。
呼吸、吞咽和认知过程等活动会影响言语的产生和真实言语中的停顿模式。尽管语音克隆过程可能非常模仿人类的语音产生,但机器不需要语音中断,而是依赖训练数据来指示这些停顿发生的位置。这可能会导致真实音频与克隆音频中的暂停方式存在细微但可检测的差异。事实上,当人类被要求区分音频深度伪造和真实声音时,虚假音频的主要理由之一是录音中不自然的停顿。
虽然这项新研究为这一日益严重的问题提供了一种解决方案,但研究人员承认,随着深度造假变得越来越现实,需要不断发展检测技术。
Klick 在声音生物标记和人工智能方面正在进行卓有成效的研究工作。23年10 月,该公司在 “Mayo Clinic Proceedings: Digital Health ”杂志上宣布了一项突破性研究,该研究围绕其AI创建的 AI 模型,可使用 10 秒的语音检测 2 型糖尿病。
关于 Klick 应用科学(包括 Klick Labs)
Klick Applied Sciences 的多元化团队由数据科学家、工程师和生物科学家组成,他们开展科学研究并开发 AI/ML 和软件解决方案,作为公司利用其成熟的商业、科学、医疗和技术专业知识支持商业活动的一部分。