EMO-BOOST:情绪增强的视听特征提升深度伪造检测的泛化能力

arXiv cs.AI 论文

摘要

本文提出Emo-Boost,一种多模态深度伪造检测框架,利用情绪线索(视听情绪识别)作为高层语义信号,提升对未见操纵类型的泛化能力,在FakeAVCeleb数据集上实现了平均AUC提升2.1%。

arXiv:2605.19630v1 公告类型:新 摘要:随着生成式AI模型的每一次进步,取证技术面临越来越大的压力。不断涌现的新生成技术使得为每种操纵收集数据以训练深度伪造检测模型变得不可能。因此,对训练中未见过的深度伪造进行泛化是当前深度伪造检测研究的主要挑战之一。为应对这一挑战,我们利用高层语义线索,并论证这些线索可以支持底层方法在泛化到未知操纵类型时的能力。在这项工作中,我们研究情绪作为一种高层语义线索。我们提出Emo-Boost,一种多模态深度伪造检测框架,它将现成的基于RGB和音频的深度伪造检测器与我们基于情绪的深度伪造检测器EmoForensics融合。EmoForensics利用视觉和音频情绪识别模块,并对视听流中情绪表征的模态内和模态间时间一致性进行建模。我们发现EmoForensics和底层方法捕获了互补的信号。因此,在EmoBoost中结合这两种信号,在FakeAVCeleb上增强了平均跨操纵泛化AUC 2.1%。
查看原文

相似文章

Alpha 混合假说:深度伪造检测中的合成捷径

Hugging Face Daily Papers

本文提出了 Alpha 混合假说,认为深度伪造检测器主要识别的是图像合成伪影,而非语义异常。文章提出了一种名为 BlenD 的方法,通过仅使用真实图像并与自混合图像进行数据增强,实现了卓越的跨数据集泛化能力。

评估主动式对话智能体中的多模态情绪识别:一项用户研究

arXiv cs.AI

本文介绍了一个用于主动对话智能体的多模态情绪识别模块,该模块结合了面部识别与语言分析。一项涉及20名参与者的用户研究发现了一种“扑克脸”效应,即视觉线索不可靠,而语言分析则更为准确;研究还表明,智能体可以通过对话适应性来引发情绪。