EMO-BOOST：情绪增强的视听特征提升深度伪造检测的泛化能力

arXiv cs.AI 2026/05/20 04:00 论文

deepfake-detection emotion-augmentation audio-visual generalization multimodal forensics generative-ai

摘要

本文提出Emo-Boost，一种多模态深度伪造检测框架，利用情绪线索（视听情绪识别）作为高层语义信号，提升对未见操纵类型的泛化能力，在FakeAVCeleb数据集上实现了平均AUC提升2.1%。

arXiv:2605.19630v1 公告类型：新摘要：随着生成式AI模型的每一次进步，取证技术面临越来越大的压力。不断涌现的新生成技术使得为每种操纵收集数据以训练深度伪造检测模型变得不可能。因此，对训练中未见过的深度伪造进行泛化是当前深度伪造检测研究的主要挑战之一。为应对这一挑战，我们利用高层语义线索，并论证这些线索可以支持底层方法在泛化到未知操纵类型时的能力。在这项工作中，我们研究情绪作为一种高层语义线索。我们提出Emo-Boost，一种多模态深度伪造检测框架，它将现成的基于RGB和音频的深度伪造检测器与我们基于情绪的深度伪造检测器EmoForensics融合。EmoForensics利用视觉和音频情绪识别模块，并对视听流中情绪表征的模态内和模态间时间一致性进行建模。我们发现EmoForensics和底层方法捕获了互补的信号。因此，在EmoBoost中结合这两种信号，在FakeAVCeleb上增强了平均跨操纵泛化AUC 2.1%。

查看原文

EMO-BOOST：情绪增强的视听特征提升深度伪造检测的泛化能力

相似文章

EmoS：面向细粒度流式情感理解的高保真多模态基准

Alpha 混合假说：深度伪造检测中的合成捷径

评估主动式对话智能体中的多模态情绪识别：一项用户研究

利用自定进度课程学习增强多模态对话情感识别中的模态平衡

回音放大知识：通过情感向量重新注入在语言模型中构建躯体标记模拟物

提交意见反馈