用于事实核查的多模态声明提取
摘要
研究人员提出了首个用于从社交媒体中进行多模态声明提取的基准,评估了最先进的多模态大语言模型,并引入了MICE——一个意图感知框架,在处理图文结合帖子中的修辞意图和上下文线索方面有所改进。
arXiv:2604.16311v1 公告类型:新发布
摘要:自动事实核查(AFC)依赖于声明提取作为第一步,但现有方法在很大程度上忽视了当今虚假信息的的多模态特性。社交媒体帖子通常将简短、非正式的文字与图像(如表情包、截图和照片)结合在一起,这带来了与纯文本声明提取以及图像描述或视觉问答等研究较为充分的多模态任务不同的挑战。在本工作中,我们提出了首个用于从社交媒体中进行多模态声明提取的基准,该基准由包含文字和一张或多张图片的帖子组成,并附有来自真实fact-checker的金标准声明标注。我们在一个三部分评估框架(语义对齐、忠实度和去情境化)下评估了最先进的MMLLM,发现基线模型在建模修辞意图和上下文线索方面存在困难。为解决这一问题,我们引入了MICE,一个意图感知框架,在意图关键案例中表现出改进。
相似文章
多视角证据合成与推理的无监督多模态实体链接
MSR-MEL 提出一种无监督框架,利用大语言模型对多视角证据进行合成与推理,实现多模态实体链接,在标准基准上全面超越既有方法。
CFMS:面向可解释细粒度中文多模态讽刺检测基准
北京大学研究人员提出了CFMS,这是首个细粒度中文多模态讽刺检测基准,包含2,796个图像-文本对和三级标注框架(讽刺识别、目标识别、解释生成),以及一种新颖的强化学习增强上下文学习方法(PGDS),该方法显著优于现有基线。
Mind's Eye:面向多模态大模型的视觉抽象、变换与组合基准
研究者推出 Mind’s Eye,一项包含八道视觉认知任务的基准测试,显示顶级多模态大模型得分不足 50%,而人类可达 80%,暴露出视觉抽象、关系映射与心理变换方面的巨大差距。
MM-JudgeBias:评测 MLLM-as-a-Judge 组合偏差的基准
研究者发布 MM-JudgeBias 基准,揭示多模态大模型在充当自动评判器时的系统性组合偏差,对 26 个 SOTA MLLM 在 1,800 条样本上进行测试。
轻量级风格一致性分析:用于多媒体内容审核的大语言模型生成文本鲁棒性检测
提出了 LiSCP,一种轻量级的风格一致性分析方法,旨在鲁棒性地检测大语言模型(LLM)生成的文本内容,重点关注在对抗性操纵下特征的稳定性。在域内和跨域检测中取得了优异的性能,并具有显著的鲁棒性。