标签
本文介绍了MER-R1,一个通过协同快速和慢速思维进行多模态情感识别的强化学习框架。它通过双目标解耦和慢速-快速置信度校准,联合优化召回率和精确率,从而实现了最先进的性能。
InnerZoom提出了一种单前向框架,用于GUI定位中的跨层证据桥接,在多个基准测试上实现了最先进的性能,同时将延迟降低高达31.8%。
介绍了SocialPersona,一个评估多模态大语言模型从纵向社交媒体时间线中恢复显性偏好并将其用于个性化对话能力的基准。
HeRA 在多模态大型语言模型 (MLLMs) 中对齐单个注意力头,以保留跨模态的局部邻域关系,从而提升视觉中心任务的性能并减少视觉幻觉。
ThinkDeception提出了一种新颖框架,利用多模态大语言模型和带有思维链推理的渐进式强化学习策略进行可解释的欺骗检测,在标准基准上取得了最新的最优结果。
本文介绍了ViGOS,一种多模态在策略自蒸馏方法,通过让学生模型先产生视觉描述再进行推理来解耦感知与推理,减少对捷径的依赖并改善图像接地行为。
本文提出MODF-SIR,一个基于轻量级多模态大语言模型的多智能体协作框架,用于社会智能推理。它采用知识蒸馏、长尾事件提取和测试时自适应,以更少的训练数据实现了最先进的结果。
本文介绍了PhysTool-Bench,一个用于评估多模态大语言模型在真实世界场景中识别和规划物理工具使用能力的基准。作者发现,即使是最佳模型也只能识别58.7%的工具,并仅完成21.0%的端到端查询,揭示了感知和功能常识两个层面的缺陷。
PathoSage 提出了一个三阶段框架,用于病理学多模态推理,该框架将知识检索、证据收集和证据裁决分开,以减少幻觉并处理冲突证据,并包含一个无需训练的 Beta-Bernoulli 经验系统,用于建模工具可靠性。
Visual Para-Thinker++提出了一种用于视觉推理的单策略多智能体框架,该框架使用角色条件化智能体(主智能体、工作智能体、汇总智能体)和专用训练方法,以减少幻觉并提高效率,在幻觉敏感基准测试上优于基线。
介绍WorldBench,一个视觉多样化的多模态推理基准,揭示了当前多模态大语言模型在视觉理解方面的显著局限性。
提出了CORE框架,赋予多模态大语言模型显式的冲突捕获能力,以实现可泛化的篡改检测,能够通过少量或零样本适应未见过的篡改类型。
介绍VSTAT,一个衡量多模态大语言模型在视频中追踪状态能力的新基准,揭示前沿模型在人类认为简单的任务上表现不佳。
VSTAT 是一个用于视频视觉状态追踪的新基准,揭示了人类与多模态大模型之间的感知差距。
介绍 iVGR,一种强化学习框架,将视觉定位内化到多模态语言模型的文本推理中,在提升细粒度感知性能的同时,消除了推理过程中显式视觉基础的需求。
Faithful-MR1 是一个训练框架,通过 <Focus> 令牌锚定视觉注意,并利用反事实图像干预强化可信使用,从而提升多模态大语言模型(MLLM)中可信的多模态推理能力。它在使用更少训练数据的情况下,在 Qwen2.5-VL 骨干网络上的表现优于基线模型。
LatentOmni提出了一种用于视听推理的统一潜在空间,避免了基于文本的思维链带来的信息损失。在视听推理基准测试中,它在开源模型中达到了最先进的性能。
研究者引入了MM-OCEAN数据集和一个三级评估框架,用于多模态大语言模型中的基于证据的个性推理,揭示了'偏见鸿沟'——模型常常做出正确的预测,但缺乏合理的证据支撑。
本文识别了MLLMs中不平衡的注意力头组,这些头组驱动或抵抗模态冲突幻觉,并提出了MACI(模态冲突感知因果干预),一种仅在检测到冲突时抑制幻觉驱动头的因果干预方法,在五个模型上实现了大幅的幻觉减少。