伪代码引导的结构化推理:实现视觉语言模型中可靠推理的自动化
摘要
提出了伪代码引导的结构化推理框架(PStar),该框架自适应地选择结构化伪代码推理路径以减少视觉语言模型中的幻觉,在POPE和MMStar基准测试上取得了最先进的分数。
arXiv:2605.19663v1 公告类型:新
摘要:视觉语言模型(VLMs)正在成为机器人自动化高级推理的基石,使机器人能够解析自然语言命令并感知其环境。然而,它们容易产生幻觉,在决策中引入关键性故障,给物理部署带来重大的安全性和可靠性风险。由于现实世界任务的开放性,问题在难度和模态上差异巨大,需要稳健且适应性强的推理策略,这一挑战变得更加严峻。为了解决这个问题,我们提出了伪代码引导的结构化推理框架(PStar),该框架自适应地选择结构化伪代码推理路径,帮助VLM进行灵活且逐步的推理。我们首先设计了一组抽象推理函数,并构建了一个结构化伪代码库来表示模块化推理策略。关键在于,我们设计了难度特征向量(DFV),使模型能够评估问题复杂度并自适应地选择合适的推理策略——增强了鲁棒性和可解释性。大量实验表明,PStar显著降低了幻觉率,在POPE上达到87.1%,在MMStar上达到68.0%,甚至超越了GPT-4V。通过提供减少视觉语言错误的经过验证的机制,PStar为在现实世界自动化系统中部署更可信、更确定的VLM迈出了关键一步,这些系统中的错误可能导致灾难性后果。
相似文章
面向多模态推理的结构化角色感知策略优化
本文介绍了结构化角色感知策略优化(SRPO),该方法通过在大视觉-语言模型的强化学习框架内,根据感知和推理的不同角色分配令牌级信用,从而提升多模态推理能力。
视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
PRISM:用于顺序决策的感知与推理交织方法
本文介绍了 PRISM,这是一个通过动态问答流程整合视觉-语言模型和大语言模型的框架,旨在提升具身 AI 任务中的顺序决策能力。
更多推理,更低准确性?论视觉语言模型中推理的双重性
本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。
看不清还是想不对?面向视觉语言推理的感知奖励
本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。