伪代码引导的结构化推理：实现视觉语言模型中可靠推理的自动化

arXiv cs.AI 2026/05/20 04:00 论文

摘要

提出了伪代码引导的结构化推理框架（PStar），该框架自适应地选择结构化伪代码推理路径以减少视觉语言模型中的幻觉，在POPE和MMStar基准测试上取得了最先进的分数。

arXiv:2605.19663v1 公告类型：新摘要：视觉语言模型（VLMs）正在成为机器人自动化高级推理的基石，使机器人能够解析自然语言命令并感知其环境。然而，它们容易产生幻觉，在决策中引入关键性故障，给物理部署带来重大的安全性和可靠性风险。由于现实世界任务的开放性，问题在难度和模态上差异巨大，需要稳健且适应性强的推理策略，这一挑战变得更加严峻。为了解决这个问题，我们提出了伪代码引导的结构化推理框架（PStar），该框架自适应地选择结构化伪代码推理路径，帮助VLM进行灵活且逐步的推理。我们首先设计了一组抽象推理函数，并构建了一个结构化伪代码库来表示模块化推理策略。关键在于，我们设计了难度特征向量（DFV），使模型能够评估问题复杂度并自适应地选择合适的推理策略——增强了鲁棒性和可解释性。大量实验表明，PStar显著降低了幻觉率，在POPE上达到87.1%，在MMStar上达到68.0%，甚至超越了GPT-4V。通过提供减少视觉语言错误的经过验证的机制，PStar为在现实世界自动化系统中部署更可信、更确定的VLM迈出了关键一步，这些系统中的错误可能导致灾难性后果。

查看原文

伪代码引导的结构化推理：实现视觉语言模型中可靠推理的自动化

相似文章

Perceive-to-Reason：解耦感知与推理实现细粒度视觉推理

Visual Para-Thinker++: 视觉推理的单策略多智能体框架

强化空间视觉语言模型中的双路径推理

面向多模态推理的结构化角色感知策略优化

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

提交意见反馈