CORE:面向冲突的通用多模态篡改检测推理
摘要
提出了CORE框架,赋予多模态大语言模型显式的冲突捕获能力,以实现可泛化的篡改检测,能够通过少量或零样本适应未见过的篡改类型。
arXiv:2606.03066v1 公告类型:新
摘要:生成式人工智能的快速发展使得多模态虚假新闻变得越来越逼真和普遍,对公众信任和社会稳定构成了严重威胁。现有的检测方法严重依赖于针对特定篡改的模型和大规模标注数据,导致对新兴篡改类型的泛化能力较差。我们观察到,被操纵的错误信息的本质在于其内在冲突,**即**,跨模态或与常识知识之间的语义或物理不一致。受此启发,我们提出**C**onflict-**O**riented **RE**asoning(**CORE**)框架,这是一种有效的范式,通过训练使多模态大语言模型(MLLMs)具备显式的冲突捕获能力。为此,CORE 首先构建了冲突归因语料库(CAC),其中包含冲突因素和来源的细粒度标注,为后续冲突感知训练提供必要的数据支持。通过基于 CAC 进行面向冲突的表示增强和推理,CORE 实现了稳健且可泛化的冲突检测,能够有效且快速地适应未见过的篡改类型,只需少量样本甚至零样本设置。大量实验表明,CORE 超越了当前最先进的模型。数据集和代码已公开在 https://github.com/shen8424/CORE。
查看缓存全文
缓存时间: 2026/06/03 09:42
# 面向冲突推理的通用多模态篡改检测 **来源:** https://arxiv.org/html/2606.03066 Yaxiong Wang, Yujiao Wu, Lechao Cheng, Tianrui Hui, Nan Pu, Zhihui Li, Zhun Zhong ###### 摘要 生成式AI的迅猛发展使得多模态虚假新闻日益逼真且泛滥,对公众信任和社会稳定构成严重威胁。现有检测方法严重依赖针对特定篡改的模型和大规模标注数据,导致对新兴篡改类型的泛化能力差。我们观察到,被篡改的错误信息的本质在于其内在的冲突,即跨模态或与常识世界知识之间的语义或物理不一致。受此启发,我们提出面向冲突推理(CORE)框架,这是一种有效的范式,通过显式的冲突捕捉能力来赋能多模态大语言模型(MLLMs)。为此,CORE首先构建冲突归因语料库(CAC),其中包含细粒度的冲突因素和来源标注,为后续的冲突感知训练提供必要的数据支持。基于CAC进行面向冲突的表示增强和推理,CORE实现了鲁棒且可泛化的冲突检测,能够以少量样本甚至零样本方式有效且快速地适应未见过的篡改类型。大量实验表明,CORE超越了现有最先进的模型。数据集和代码已公开于https://github.com/shen8424/CORE。 **关键词:** 伪造检测,多模态,冲突推理,MLLM,篡改检测 \icml@noticeprintedtrue ††footnotetext: \forloop@affilnum1\c@@affilnum<\c@@affiliationcounter0 AUTHORERR: Missing \icmlaffiliation.. \Notice@String ## 1 引言 生成式人工智能的快速发展正在深刻影响多个领域(Haydarov等,2024b(https://arxiv.org/html/2606.03066#bib.bib7);Li等,2024(https://arxiv.org/html/2606.03066#bib.bib8);Abdelnabi等,2022(https://arxiv.org/html/2606.03066#bib.bib9);Jiang等,2020a(https://arxiv.org/html/2606.03066#bib.bib21)),极大地模糊了现实与虚构的边界。在社交网络中,恶意行为者现在可以以前所未有的规模和速度制造极具说服力的多模态虚假新闻,将篡改的图像与欺骗性文本相结合(Yu等,2024(https://arxiv.org/html/2606.03066#bib.bib11);Haydarov等,2024a(https://arxiv.org/html/2606.03066#bib.bib12);Jiang等,2020b(https://arxiv.org/html/2606.03066#bib.bib13);Li等,2020a(https://arxiv.org/html/2606.03066#bib.bib14);Lu等,2023(https://arxiv.org/html/2606.03066#bib.bib10))。这些伪造内容,从面部属性的细微编辑到完全虚构的场景,对公众信任和社会稳定构成了严重威胁(Lu等,2023(https://arxiv.org/html/2606.03066#bib.bib10);Li等,2020b(https://arxiv.org/html/2606.03066#bib.bib22);Shao等,2022(https://arxiv.org/html/2606.03066#bib.bib23))。随着人工验证变得越来越困难,开发鲁棒的自动化检测系统比以往任何时候都更加关键。 参见图注 图1:以往的方法需要大量数据和针对特定篡改的专门设计,但在应对新类型时却很吃力。我们的CORE解决了虚假新闻中的核心“冲突”问题,实现了通用检测,并且仅需最少数据即可取得优异性能。“Mani.”表示“Manipulation”。 为了应对这些挑战,研究人员开发了各种篡改检测方法(Shao等,2023(https://arxiv.org/html/2606.03066#bib.bib17);Shen等,2025(https://arxiv.org/html/2606.03066#bib.bib19);Zhang等,2025a(https://arxiv.org/html/2606.03066#bib.bib20);Liu等,2024(https://arxiv.org/html/2606.03066#bib.bib24);Shao等,2024(https://arxiv.org/html/2606.03066#bib.bib26);Bei等,2024(https://arxiv.org/html/2606.03066#bib.bib25)),成功缓解了多模态虚假新闻的泛滥。然而,这些方法的成功前提是设计针对特定篡改类型的模型和训练范式,并依赖大规模、类型特定的训练数据。在实践中,伪造技术(Chen等,2020(https://arxiv.org/html/2606.03066#bib.bib49);Wang等,2022a(https://arxiv.org/html/2606.03066#bib.bib51);Patashnik等,2021(https://arxiv.org/html/2606.03066#bib.bib52);Gao等,2021(https://arxiv.org/html/2606.03066#bib.bib50))和检测方法之间存在着持续的“军备竞赛”。新篡改方法的进化速度远远超过了数据收集、清洗和标注的周期,也超过了为每种新类型设计针对性模型的需求。因此,当前方法在遇到新的篡改模式时性能会显著下降(Zhang等,2025c(https://arxiv.org/html/2606.03066#bib.bib56),2026(https://arxiv.org/html/2606.03066#bib.bib57);Lian等,2026(https://arxiv.org/html/2606.03066#bib.bib58))。因此,该领域迫切需要一种新的范式,能够摆脱对数据和特定模型设计的依赖,使模型仅需少量样本即可有效适应新篡改类型(Brown等,2020(https://arxiv.org/html/2606.03066#bib.bib53);Wang等,2022b(https://arxiv.org/html/2606.03066#bib.bib54);Madaan等,2022(https://arxiv.org/html/2606.03066#bib.bib55))。 我们观察到,被篡改信息的本质在于其内在的“冲突”。这种冲突可以表现为:内容与世界知识之间的语义矛盾,例如新闻“唐纳德·特朗普赢得足球奖”中特朗普总统身份与足球奖项之间的常识冲突;或者篡改内容与原图/原文之间在物理层面的冲突,如光照和阴影。如图1(https://arxiv.org/html/2606.03066#S1.F1)所示,现有方法通过大量训练数据和专门模型设计隐式地捕捉这种冲突,但这种过度依赖导致了对特定篡改模式的过拟合,泛化能力差。相比之下,人类通过激活自身知识并进行冲突推理来识别欺骗,从而能够对各种形式的篡改做出稳健判断。受此启发,我们认为,如果检测模型具备显式的冲突捕捉能力,它就能在面对新篡改场景时模仿人类的鲁棒性,从而缓解当前方法长期存在的数据依赖和设计僵化问题。 遵循人类在多模态错误信息中检测篡改的推理过程,捕捉多模态冲突的能力在很大程度上取决于模型对现实世界知识的理解。多模态大语言模型(MLLMs)(Bai等,2025(https://arxiv.org/html/2606.03066#bib.bib27);Team,2025b(https://arxiv.org/html/2606.03066#bib.bib28),2024b(https://arxiv.org/html/2606.03066#bib.bib29);Guo等,2025(https://arxiv.org/html/2606.03066#bib.bib30))在海量多模态语料上训练,内在地编码了丰富的世界知识,因此在识别多模态篡改中的冲突方面表现出强大潜力。然而,由于缺乏概念理解,它们在冲突捕捉方面仍然不足。MLLMs常常在特征空间中将完全不相关的概念混为一谈,例如“美国总统”和“足球奖”(第3节(https://arxiv.org/html/2606.03066#S3)图LABEL:fig:tsnebeforetrain)。由于这一弱点,现有的MLLMs尽管拥有丰富的世界知识,仍然难以实现鲁棒且可泛化的错误信息检测(表2(https://arxiv.org/html/2606.03066#S4.T2))。 为了克服上述局限并构建通用多模态篡改检测的基础模型,我们提出了面向冲突推理(CORE)框架。该框架赋予MLLMs显式的概念理解能力,从而使其具备冲突检测能力。训练这种能力需要显式、细粒度的冲突监督,而现有数据集缺乏这一点。为了提供必要的数据支持,我们首先构建了冲突归因语料库(CAC)。CAC中的每个样本都标注了冲突因素(揭示错误信息中的具体矛盾内容)和冲突来源(指明矛盾源自文本、图像还是底层世界知识)。利用这些细粒度标注,我们通过冲突感知训练(CPT)来增强特征空间中冲突概念之间的边界,从而感知多模态冲突,获得类似人类的冲突理解和检测能力。凭借CPT获得的冲突捕捉能力,我们的CORE框架能够快速适应新兴的篡改模式。仅需对新篡改类型进行少量样本微调,甚至零样本设置下,即可取得优异的检测性能。 总之,我们的主要贡献如下:(1)我们引入了一种有效的通用多模态篡改检测学习范式,能够以有限的目标样本快速适应新型篡改。(2)超越传统为特定篡改设计模型的范式,我们提出了CORE,一个用于多模态错误信息检测的通用框架,它赋予MLLMs类人的冲突推理能力,并使其能快速适应未见过的错误信息模式。(3)我们构建了冲突归因语料库(CAC),这是一个精心策划的数据集,包含14k个样本,带有冲突因素和来源的细粒度标注,为研究多模态篡改中的冲突推理提供了坚实的基准。 表1:非MLLM和MLLM的世界知识评估。 | Models | World Knowledge (ACC %) | | :--- | :--- | | 非MLLMs | 41 | | MLLMs | 96 | (a) 分类任务 | ACC (%) | 总统 vs. 足球奖 | | :--- | :--- | | 61 | 总统 vs. 英国首相 | | 53 | | (b) 参见图注 (a) 参见图注 (b) 参见图注 图2:来自Qwen2.5VL-3B (a) 和装备了我们CORE的Qwen2.5VL-3B (b) 的两组概念的多模态特征可视化,其中文本和视觉特征分别从左到右显示。 **利益冲突披露。** 作者声明没有利益冲突。 ## 2 相关工作 随着深度伪造技术的不断发展,多模态虚假信息检测领域的研究也取得了显著进展。例如,HAMMER(Shao等,2023(https://arxiv.org/html/2606.03066#bib.bib17))和ASAP(Zhang等,2025b(https://arxiv.org/html/2606.03066#bib.bib31))等模型设计了专门的对比学习和细粒度检测模块来解决图像-文本不一致这一具体问题;同时,RamDG(Shen等,2025(https://arxiv.org/html/2606.03066#bib.bib19))专注于与名人相关的虚假新闻,利用外部知识库进行针对性检测。近年来,MLLMs的兴起将研究推向了新高度。SNIFFER(Qi等,2024(https://arxiv.org/html/2606.03066#bib.bib32))设计了专门的两阶段微调流程来增强判断图像-文本一致性的能力,而FKA-Owl(Liu等,2024(https://arxiv.org/html/2606.03066#bib.bib24))则尝试通过整合世界知识来解决特定类型的常识谬误。为了处理更复杂的伪造,MMD-Agent(Liu等,2025(https://arxiv.org/html/2606.03066#bib.bib18))构建了特定的多步推理框架,AMD(Zhang等,2025a(https://arxiv.org/html/2606.03066#bib.bib20))则依赖于详细的先验信息,如篡改区域坐标和篡改类型,来进行检测。 尽管多模态新闻检测方法取得了长足进步,但它们存在两个局限性。首先,它们严重依赖为特定篡改类型构建的大规模数据集;其次,它们的模型设计或训练策略通常针对某些伪造痕迹进行了专门化。这些专门化的设计使得模型在面对分布外(尤其是未见过的)篡改类型时难以保证泛化能力。因此,我们的工作不再针对特定的伪造痕迹进行设计,而是聚焦于伪造信息的核心缺陷——冲突。掌握这一基本能力使得模型能够摆脱对大规模特定数据的依赖,从而在少量样本乃至零样本场景下,对未见过的篡改类型展现出鲁棒的泛化和检测能力。 参见图注 图3:(a) CAC的构建过程。(b) CAC的一个示例。(c) CAC的统计数据,包括冲突来源分布和冲突因素的词云。 ## 3 冲突感知的挑战 人类通常不需要对类似样本进行大量训练就能识别出新奇的伪造信息。这很大程度上归功于他们能够基于自己的世界知识和理解敏锐地识别新闻中的冲突。这种能力建立在两个核心基础上:1)一个全面的世界知识库,2)对该知识库清晰且充分的理解以支持冲突捕捉。本节通过一系列实验研究当前主流模型是否具备这两项关键能力。 我们首先研究一个基本问题:现有模型是否具备识别假新闻所需的世界知识?为此,我们构建了一个包含200道选择题的基准测试,涵盖了检测假新闻所需的各种世界知识(详见附录G(https://arxiv.org/html/2606.03066#A7))。我们的评估包括两类代表性模型:非MLLM模型,如CLIP(Radford等,2021(https://arxiv.org/html/2606.03066#bib.bib33))和ALBEF(Li等,2021(https://arxiv.org/html/2606.03066#bib.bib34));以及MLLMs,包括Qwen2.5VL-3B和Gemma3-4B。对于非MLLM模型,我们通过计算问题与选项经过编码器后的嵌入之间的余弦相似度来评估其选择;相似度最高的选项视为模型的预测。对于MLLMs,我们直接使用提示让其输出正确选项。实验结果如表LABEL:tab:world\_knowledge\_benchmark所示,表明MLLMs拥有相对完整的知识,而非MLLMs则不然。 为了研究MLLMs是否像人类一样拥有清晰的概念边界,我们系统分析了它们的特征表示空间。我们选择语义差异程度不同的概念对(例如,美国总统 vs. 足球运动员;美国总统 vs. 英国首相),为每个概念收集100个相关实体,并提取它们的多模态特征(详见附录F(https://arxiv.org/html/2606.03066#A6))。然后使用t-SNE(Van der Maaten和Hinton,2008(https://arxiv.org/html/2606.03066#bib.bib35))进行可视化。如图LABEL:fig:tsnebeforetrain所示,结果证明MLLM的表示空间未能形成清晰的边界:即使是语义上截然不同的概念,其分布也是分散且重叠的;我们进一步基于这些特征训练了一个分类器来量化其可分离性,表LABEL:tab:linear\_separability中的低分类准确率也定量证实了这一点。实验表明,非MLLM模型的知识不完整,而MLLMs虽然解决了知识库的问题,但(概念边界)仍然不足。
相似文章
模态解耦的在线递归编辑
提出M-ORE,一种模态解耦的在线递归编辑器,用于多模态大语言模型的终身适应,解决跨模态冲突和编辑间干扰,且每次编辑开销恒定。
MMCORE:多模态连接与表征对齐的潜在嵌入
MMCORE 提出一个统一的多模态图像生成与编辑框架,将 VLM 语义嵌入与扩散条件对齐,无需昂贵融合或从零训练即可实现顶尖保真度。
增强多模态推理以对抗视觉退化
本文介绍了 ROMA,这是一种强化学习微调框架,旨在提高多模态大语言模型(MLLMs)对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标,在保持干净输入准确性的同时,提升了推理基准测试的性能。
CORE:对比反思实现推理能力的快速提升
对比反思(CORE)是一种非参数算法,通过比较成功与不成功的推理轨迹,生成简洁、可解释的洞见,从而以比现有方法更少的样本和 rollout 次数,实现语言模型更快、更高效的自我改进。
InternVideo3: 使用多模态上下文推理将基础模型智能体化
InternVideo3 引入了多模态上下文推理(MCR)和高效注意力机制,以增强长时域多模态任务,在视频理解基准上取得了强劲的结果,并展示了视频智能体能力。