mllm

#mllm

MER-R1: 通过慢速-快速思维协同的多模态情感推理

arXiv cs.AI ↗ · 2天前缓存

本文介绍了MER-R1，一个通过协同快速和慢速思维进行多模态情感识别的强化学习框架。它通过双目标解耦和慢速-快速置信度校准，联合优化召回率和精确率，从而实现了最先进的性能。

0 人收藏 0 人点赞

#mllm

一次前向胜过两次：InnerZoom实现精准高效的GUI定位

Hugging Face Daily Papers ↗ · 2天前缓存

InnerZoom提出了一种单前向框架，用于GUI定位中的跨层证据桥接，在多个基准测试上实现了最先进的性能，同时将延迟降低高达31.8%。

0 人收藏 0 人点赞

#mllm

SocialPersona：基于多模态社交媒体上下文的个性化画像与对话基准

arXiv cs.CL ↗ · 5天前缓存

介绍了SocialPersona，一个评估多模态大语言模型从纵向社交媒体时间线中恢复显性偏好并将其用于个性化对话能力的基准。

0 人收藏 0 人点赞

#mllm

Mind the Heads: 多模态大语言模型的拓扑表示对齐

Hugging Face Daily Papers ↗ · 2026-06-22 缓存

HeRA 在多模态大型语言模型 (MLLMs) 中对齐单个注意力头，以保留跨模态的局部邻域关系，从而提升视觉中心任务的性能并减少视觉幻觉。

0 人收藏 0 人点赞

#mllm

ThinkDeception: 一种可解释的多模态欺骗检测的渐进式强化学习框架

arXiv cs.AI ↗ · 2026-06-18 缓存

ThinkDeception提出了一种新颖框架，利用多模态大语言模型和带有思维链推理的渐进式强化学习策略进行可解释的欺骗检测，在标准基准上取得了最新的最优结果。

0 人收藏 0 人点赞

#mllm

先见后思：解耦感知与推理实现抗捷径的多模态在策略自蒸馏

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

本文介绍了ViGOS，一种多模态在策略自蒸馏方法，通过让学生模型先产生视觉描述再进行推理来解耦感知与推理，减少对捷径的依赖并改善图像接地行为。

0 人收藏 0 人点赞

#mllm

MODF-SIR：面向社会智能推理的多智能体全能模态蒸馏框架

arXiv cs.AI ↗ · 2026-06-11 缓存

本文提出MODF-SIR，一个基于轻量级多模态大语言模型的多智能体协作框架，用于社会智能推理。它采用知识蒸馏、长尾事件提取和测试时自适应，以更少的训练数据实现了最先进的结果。

0 人收藏 0 人点赞

#mllm

超越API：探究MLLMs在物理工具使用中的极限

arXiv cs.CL ↗ · 2026-06-10 缓存

本文介绍了PhysTool-Bench，一个用于评估多模态大语言模型在真实世界场景中识别和规划物理工具使用能力的基准。作者发现，即使是最佳模型也只能识别58.7%的工具，并仅完成21.0%的端到端查询，揭示了感知和功能常识两个层面的缺陷。

0 人收藏 0 人点赞

#mllm

推理，然后重新推理：跨视角回顾提升空间推理

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

一种无需训练的空间推理框架，它利用由预测3D几何生成的合成新视角视频，实现对自我中心视频中结论的重新审视。

0 人收藏 0 人点赞

#mllm

PathoSage：通过经验感知的代理工作流实现病理学中的多源证据裁决

arXiv cs.AI ↗ · 2026-06-09 缓存

PathoSage 提出了一个三阶段框架，用于病理学多模态推理，该框架将知识检索、证据收集和证据裁决分开，以减少幻觉并处理冲突证据，并包含一个无需训练的 Beta-Bernoulli 经验系统，用于建模工具可靠性。

0 人收藏 0 人点赞

#mllm

Visual Para-Thinker++: 视觉推理的单策略多智能体框架

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

Visual Para-Thinker++提出了一种用于视觉推理的单策略多智能体框架，该框架使用角色条件化智能体（主智能体、工作智能体、汇总智能体）和专用训练方法，以减少幻觉并提高效率，在幻觉敏感基准测试上优于基线。

0 人收藏 0 人点赞

#mllm

WorldBench：一个具有挑战性且视觉多样化的多模态推理基准

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

介绍WorldBench，一个视觉多样化的多模态推理基准，揭示了当前多模态大语言模型在视觉理解方面的显著局限性。

0 人收藏 0 人点赞

#mllm

CORE：面向冲突的通用多模态篡改检测推理

arXiv cs.AI ↗ · 2026-06-03 缓存

提出了CORE框架，赋予多模态大语言模型显式的冲突捕获能力，以实现可泛化的篡改检测，能够通过少量或零样本适应未见过的篡改类型。

0 人收藏 0 人点赞

#mllm

@PinzhiHuang: 状态追踪是视频理解的核心支柱：它需要识别实体和事件，并映射它们如何随时间演变…

X AI KOLs Following ↗ · 2026-06-03 缓存

介绍VSTAT，一个衡量多模态大语言模型在视频中追踪状态能力的新基准，揭示前沿模型在人类认为简单的任务上表现不佳。

0 人收藏 0 人点赞

#mllm

@ma_nanye: VSTAT 强调了人类与多模态大模型之间巨大的感知差距，但其意义远不止于此。其多样化的任务……

X AI KOLs Following ↗ · 2026-06-03 缓存

VSTAT 是一个用于视频视觉状态追踪的新基准，揭示了人类与多模态大模型之间的感知差距。

0 人收藏 0 人点赞

#mllm

iVGR: 通过强化学习将视觉基础推理内化到多模态大语言模型

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

介绍 iVGR，一种强化学习框架，将视觉定位内化到多模态语言模型的文本推理中，在提升细粒度感知性能的同时，消除了推理过程中显式视觉基础的需求。

0 人收藏 0 人点赞

#mllm

Faithful-MR1: 通过锚定与强化视觉注意实现可信的多模态推理

arXiv cs.CL ↗ · 2026-05-22 缓存

Faithful-MR1 是一个训练框架，通过 <Focus> 令牌锚定视觉注意，并利用反事实图像干预强化可信使用，从而提升多模态大语言模型（MLLM）中可信的多模态推理能力。它在使用更少训练数据的情况下，在 Qwen2.5-VL 骨干网络上的表现优于基线模型。

0 人收藏 0 人点赞

#mllm

LatentOmni：通过统一视听潜在推理重新思考全模态理解

arXiv cs.CL ↗ · 2026-05-22 缓存

LatentOmni提出了一种用于视听推理的统一潜在空间，避免了基于文本的思维链带来的信息损失。在视听推理基准测试中，它在开源模型中达到了最先进的性能。

0 人收藏 0 人点赞

#mllm

感知还是偏见：多模态大语言模型能否超越对个性的第一印象？

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

研究者引入了MM-OCEAN数据集和一个三级评估框架，用于多模态大语言模型中的基于证据的个性推理，揭示了'偏见鸿沟'——模型常常做出正确的预测，但缺乏合理的证据支撑。

0 人收藏 0 人点赞

#mllm

模态冲突幻觉中注意力头不平衡的因果证据

arXiv cs.AI ↗ · 2026-05-20 缓存

本文识别了MLLMs中不平衡的注意力头组，这些头组驱动或抵抗模态冲突幻觉，并提出了MACI（模态冲突感知因果干预），一种仅在检测到冲突时抑制幻觉驱动头的因果干预方法，在五个模型上实现了大幅的幻觉减少。

0 人收藏 0 人点赞

mllm

提交意见反馈