ReMMD:面向多模态虚假信息检测的真实多语言多图像智能验证框架
摘要
ReMMD 提出了一种面向多模态虚假信息检测的真实多语言多图像智能验证框架,包含一个包含 500 个样本和 2,756 张图像的基准数据集 ReMMDBench,以及一个以更低成本实现更优真实性检测性能的智能体 ReMMD-Agent。
查看缓存全文
缓存时间: 2026/06/24 05:46
论文页面 - ReMMD:面向多模态虚假信息检测的现实多语言多图像代理验证框架
来源:https://huggingface.co/papers/2606.24112
摘要
本文介绍了一个全面的多模态虚假信息检测框架,该框架能够处理包含多张图像、多种验证方式的复杂多语言内容,在降低计算成本的同时实现了更优的性能。
多模态虚假信息检测(https://huggingface.co/papers?q=Multimodal%20misinformation%20detection)日益重要,因为病毒式传播的帖子现在往往融合了长篇多语言叙述、多张图片、混合来源以及细微的图文框架错误。现有的基准和方法仍难以匹配这种场景:它们通常只处理简短说明、单张图片、二元标签或单一操控来源,而基于代理的验证(https://huggingface.co/papers?q=agentic%20verification)在现实证据搜索下仍然成本高昂。我们提出了ReMMD,一个面向多模态虚假信息检测(https://huggingface.co/papers?q=multimodal%20misinformation%20detection)的现实多语言多图像代理验证框架。ReMMD包含ReMMDBench(https://huggingface.co/papers?q=ReMMDBench),一个真实世界的多模态虚假信息检测基准,包含500个样本、2756张图像、五种单语语言、两种跨语言设置、三种文本长度层级、多图像帖子、五类真实性标签(https://huggingface.co/papers?q=veracity%20labels)、八类失真标签(https://huggingface.co/papers?q=distortion%20labels)、证据来源(https://huggingface.co/papers?q=evidence%20provenance)以及推理说明。它还包含ReMMD-Agent(https://huggingface.co/papers?q=ReMMD-Agent),一个具有持久记忆的验证器,能够将帖子分解为原子要点,构建可复用的证据集,并预测结构化的L1/L2/L3输出(https://huggingface.co/papers?q=structured%20L1%2FL2%2FL3%20outputs)。在专有系统、开放LVLM(https://huggingface.co/papers?q=LVLMs)、MMD-Agent和T2-Agent中,ReMMD-Agent(https://huggingface.co/papers?q=ReMMD-Agent)在五类真实性性能上表现最佳,使用GPT-5.2(https://huggingface.co/papers?q=GPT-5.2)时准确率达到41.80%,宏F1达到39.12%,同时相比MMD-Agent成本降低17.5%,相比T2-Agent成本降低79.9%。项目地址:https://dang-ai.github.io/ReMMD。
查看arXiv页面(https://arxiv.org/abs/2606.24112)查看PDF(https://arxiv.org/pdf/2606.24112)项目页面(https://dang-ai.github.io/ReMMD)GitHub0(https://github.com/DANG-ai/ReMMDBench-Agent)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.24112)
在你的代理中获取此论文:
hf papers read 2606.24112
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在模型README.md中引用arxiv.org/abs/2606.24112以从本页链接。
引用此论文的数据集1
DDAI-D/ReMMDBench 更新于约3小时前 • 5 • 1 (https://huggingface.co/datasets/DDAI-D/ReMMDBench)
引用此论文的Spaces0
没有Space链接此论文
请在Space README.md中引用arxiv.org/abs/2606.24112以从本页链接。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到一个收藏集(https://huggingface.co/new-collection)以从本页链接。
相似文章
SynCred-Bench: AI生成视觉虚假信息中合成可信度的基准测试
介绍了SynCred-Bench,这是一个包含600张AI生成的虚假信息图像的基准测试,涵盖六种可信形式类别,表明现有检测器(包括MLLMs、开源AIGC检测器和商业API)表现不佳,人类标注者同样难以识别。
MemEye:面向多模态智能体记忆的视觉中心评估框架
MemEye 是一个视觉中心的评估框架,通过衡量 8 个生活场景任务中的视觉证据粒度和检索复杂度来评估多模态智能体记忆。该框架揭示了当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。
增强多模态推理以对抗视觉退化
本文介绍了 ROMA,这是一种强化学习微调框架,旨在提高多模态大语言模型(MLLMs)对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标,在保持干净输入准确性的同时,提升了推理基准测试的性能。
InternVideo3: 使用多模态上下文推理将基础模型智能体化
InternVideo3 引入了多模态上下文推理(MCR)和高效注意力机制,以增强长时域多模态任务,在视频理解基准上取得了强劲的结果,并展示了视频智能体能力。
MARDoc:面向多模态长文档问答的记忆感知精炼代理框架
MARDoc是一种用于多模态长文档问答的记忆感知精炼代理框架,在MMLongBench-Doc和DocBench基准上使用Qwen3-VL模型进行评估,相比基于MLLM、RAG和代理的基线表现出持续改进。