ReMMD:面向多模态虚假信息检测的真实多语言多图像智能验证框架

Hugging Face Daily Papers 论文

摘要

ReMMD 提出了一种面向多模态虚假信息检测的真实多语言多图像智能验证框架,包含一个包含 500 个样本和 2,756 张图像的基准数据集 ReMMDBench,以及一个以更低成本实现更优真实性检测性能的智能体 ReMMD-Agent。

多模态虚假信息检测日益重要,因为病毒式传播的帖子现在结合了长篇多语言叙述、多张图像、混合来源以及细微的图文错位问题。现有的基准和方法与这一场景仍不匹配:它们通常局限于简短标题、单张图像、二元标签或单一操作来源,而基于智能体的验证在实际证据搜索中成本高昂。我们提出 ReMMD,这是一个面向多模态虚假信息检测的真实多语言多图像智能验证框架。ReMMD 包含 ReMMDBench,一个真实世界多模态虚假信息检测基准数据集,包含 500 个样本、2,756 张图像、五种单语言、两种跨语言设置、三种文本长度层级、多图像帖子、五类真实性标签、八类失真标签、证据来源及理由。它还包括 ReMMD-Agent,一个具有持久记忆的验证器,将帖子分解为原子要点,构建可复用的证据集,并预测结构化的 L1/L2/L3 输出。在专有系统、开放 LVLMs、MMD-Agent 和 T2-Agent 的对比中,ReMMD-Agent 取得了最佳的五类真实性检测性能,使用 GPT-5.2 时准确率达到 41.80%,宏 F1 达到 39.12%,同时相比 MMD-Agent 成本降低 17.5%,相比 T2-Agent 成本降低 79.9%。项目地址:https://dang-ai.github.io/ReMMD。
查看原文
查看缓存全文

缓存时间: 2026/06/24 05:46

论文页面 - ReMMD:面向多模态虚假信息检测的现实多语言多图像代理验证框架

来源:https://huggingface.co/papers/2606.24112

摘要

本文介绍了一个全面的多模态虚假信息检测框架,该框架能够处理包含多张图像、多种验证方式的复杂多语言内容,在降低计算成本的同时实现了更优的性能。

多模态虚假信息检测(https://huggingface.co/papers?q=Multimodal%20misinformation%20detection)日益重要,因为病毒式传播的帖子现在往往融合了长篇多语言叙述、多张图片、混合来源以及细微的图文框架错误。现有的基准和方法仍难以匹配这种场景:它们通常只处理简短说明、单张图片、二元标签或单一操控来源,而基于代理的验证(https://huggingface.co/papers?q=agentic%20verification)在现实证据搜索下仍然成本高昂。我们提出了ReMMD,一个面向多模态虚假信息检测(https://huggingface.co/papers?q=multimodal%20misinformation%20detection)的现实多语言多图像代理验证框架。ReMMD包含ReMMDBench(https://huggingface.co/papers?q=ReMMDBench),一个真实世界的多模态虚假信息检测基准,包含500个样本、2756张图像、五种单语语言、两种跨语言设置、三种文本长度层级、多图像帖子、五类真实性标签(https://huggingface.co/papers?q=veracity%20labels)、八类失真标签(https://huggingface.co/papers?q=distortion%20labels)、证据来源(https://huggingface.co/papers?q=evidence%20provenance)以及推理说明。它还包含ReMMD-Agent(https://huggingface.co/papers?q=ReMMD-Agent),一个具有持久记忆的验证器,能够将帖子分解为原子要点,构建可复用的证据集,并预测结构化的L1/L2/L3输出(https://huggingface.co/papers?q=structured%20L1%2FL2%2FL3%20outputs)。在专有系统、开放LVLM(https://huggingface.co/papers?q=LVLMs)、MMD-Agent和T2-Agent中,ReMMD-Agent(https://huggingface.co/papers?q=ReMMD-Agent)在五类真实性性能上表现最佳,使用GPT-5.2(https://huggingface.co/papers?q=GPT-5.2)时准确率达到41.80%,宏F1达到39.12%,同时相比MMD-Agent成本降低17.5%,相比T2-Agent成本降低79.9%。项目地址:https://dang-ai.github.io/ReMMD。

查看arXiv页面(https://arxiv.org/abs/2606.24112)查看PDF(https://arxiv.org/pdf/2606.24112)项目页面(https://dang-ai.github.io/ReMMD)GitHub0(https://github.com/DANG-ai/ReMMDBench-Agent)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.24112)

在你的代理中获取此论文:

hf papers read 2606.24112

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型README.md中引用arxiv.org/abs/2606.24112以从本页链接。

引用此论文的数据集1

DDAI-D/ReMMDBench 更新于约3小时前 • 5 • 1 (https://huggingface.co/datasets/DDAI-D/ReMMDBench)

引用此论文的Spaces0

没有Space链接此论文

请在Space README.md中引用arxiv.org/abs/2606.24112以从本页链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到一个收藏集(https://huggingface.co/new-collection)以从本页链接。

相似文章

MemEye:面向多模态智能体记忆的视觉中心评估框架

Hugging Face Daily Papers

MemEye 是一个视觉中心的评估框架,通过衡量 8 个生活场景任务中的视觉证据粒度和检索复杂度来评估多模态智能体记忆。该框架揭示了当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。

增强多模态推理以对抗视觉退化

Hugging Face Daily Papers

本文介绍了 ROMA,这是一种强化学习微调框架,旨在提高多模态大语言模型(MLLMs)对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标,在保持干净输入准确性的同时,提升了推理基准测试的性能。