EMO-BOOST:情绪增强的视听特征提升深度伪造检测的泛化能力
摘要
本文提出Emo-Boost,一种多模态深度伪造检测框架,利用情绪线索(视听情绪识别)作为高层语义信号,提升对未见操纵类型的泛化能力,在FakeAVCeleb数据集上实现了平均AUC提升2.1%。
arXiv:2605.19630v1 公告类型:新
摘要:随着生成式AI模型的每一次进步,取证技术面临越来越大的压力。不断涌现的新生成技术使得为每种操纵收集数据以训练深度伪造检测模型变得不可能。因此,对训练中未见过的深度伪造进行泛化是当前深度伪造检测研究的主要挑战之一。为应对这一挑战,我们利用高层语义线索,并论证这些线索可以支持底层方法在泛化到未知操纵类型时的能力。在这项工作中,我们研究情绪作为一种高层语义线索。我们提出Emo-Boost,一种多模态深度伪造检测框架,它将现成的基于RGB和音频的深度伪造检测器与我们基于情绪的深度伪造检测器EmoForensics融合。EmoForensics利用视觉和音频情绪识别模块,并对视听流中情绪表征的模态内和模态间时间一致性进行建模。我们发现EmoForensics和底层方法捕获了互补的信号。因此,在EmoBoost中结合这两种信号,在FakeAVCeleb上增强了平均跨操纵泛化AUC 2.1%。
相似文章
EmoS:面向细粒度流式情感理解的高保真多模态基准
本文介绍了 EmoS,这是一个专为细粒度流式情感理解设计的高保真多模态基准,旨在解决现有数据集中存在的生态效度不足和标注可靠性低的问题。
Alpha 混合假说:深度伪造检测中的合成捷径
本文提出了 Alpha 混合假说,认为深度伪造检测器主要识别的是图像合成伪影,而非语义异常。文章提出了一种名为 BlenD 的方法,通过仅使用真实图像并与自混合图像进行数据增强,实现了卓越的跨数据集泛化能力。
评估主动式对话智能体中的多模态情绪识别:一项用户研究
本文介绍了一个用于主动对话智能体的多模态情绪识别模块,该模块结合了面部识别与语言分析。一项涉及20名参与者的用户研究发现了一种“扑克脸”效应,即视觉线索不可靠,而语言分析则更为准确;研究还表明,智能体可以通过对话适应性来引发情绪。
利用自定进度课程学习增强多模态对话情感识别中的模态平衡
本文提出了一种基于自定进度课程学习的即插即用模块,用于增强多模态对话情感识别中的模态平衡,在IEMOCAP和MELD数据集上实现了F1分数的一致提升。
回音放大知识:通过情感向量重新注入在语言模型中构建躯体标记模拟物
本预印本介绍了一种将情感向量注入语言模型以模拟躯体标记的方法,旨在弥合语义记忆与情景记忆之间的差距。作者证明,将情感回音与语义知识相结合可以提升决策能力,从而复现了人类认知科学中的相关发现。