Visual Para-Thinker++: 视觉推理的单策略多智能体框架

Hugging Face Daily Papers 2026/06/08 00:00 论文

摘要

Visual Para-Thinker++提出了一种用于视觉推理的单策略多智能体框架，该框架使用角色条件化智能体（主智能体、工作智能体、汇总智能体）和专用训练方法，以减少幻觉并提高效率，在幻觉敏感基准测试上优于基线。

视觉推理需要整合分布在区域、属性和关系中的证据，这使得单链推理容易出现早期感知承诺和幻觉。我们提出Visual Para-Thinker++，这是一个单策略多智能体框架，其中一个共享的MLLM策略被实例化为角色条件化的主智能体、工作智能体和汇总智能体。主智能体通过固定的分配模式分解任务；工作智能体在上下文隔离下并行推理；汇总智能体整合完整的工作智能体推理轨迹，而不是对最终标签进行多数投票。共享策略通过多智能体能力注入和角色解耦的多智能体优化进行训练，这些方法为相应的令牌片段分配角色特定的奖励和优势，以减少协作角色之间的梯度冲突。原生推理引擎通过共享视觉前缀和KV缓存重用实现高效的多智能体展开。在V*、CountBench、RefCOCO系列和HallusionBench上，Visual Para-Thinker++持续优于单轨迹和推理时并行基线，尤其在幻觉敏感的视觉推理上表现强劲。

查看原文

查看缓存全文

缓存时间: 2026/06/12 06:51

论文页 - Visual Para-Thinker++：用于视觉推理的单策略多智能体框架

来源：https://huggingface.co/papers/2606.09290

摘要

一个共享MLLM策略和角色专属训练方法的多智能体框架，通过减少幻觉并实现高效并行处理来提升视觉推理能力。

视觉推理需要整合分布在区域、属性和关系中的证据，这使得单链推理容易陷入早期感知承诺和幻觉问题。我们提出 Visual Para-Thinker++，一个单策略多智能体框架，其中共享的MLLM策略被实例化为带有角色条件的主智能体、工作智能体和总结智能体。主智能体使用固定分配模式分解任务；工作智能体在上下文隔离下并行推理；总结智能体整合所有工作智能体的完整推理轨迹，而非对最终标签进行多数投票。共享策略通过多智能体能力注入和角色解耦多智能体优化进行训练，后者为对应 token 片段分配角色专属奖励和优势，以减少协作角色间的梯度冲突。原生推理引擎通过共享视觉前缀和KV缓存复用实现高效的多智能体 rollout。在 V*、CountBench、RefCOCO 系列和 HallusionBench 上，Visual Para-Thinker++ 一致地优于单轨迹和推理时并行基线，在对幻觉敏感的视觉推理任务上尤其表现出强劲的增长。

查看 arXiv 页面 (https://arxiv.org/abs/2606.09290)查看 PDF (https://arxiv.org/pdf/2606.09290)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09290)

在您的智能体中获取此论文：

hf papers read 2606\.09290

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.09290 以从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.09290 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.09290 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

Visual Para-Thinker++: 视觉推理的单策略多智能体框架

论文页 - Visual Para-Thinker++：用于视觉推理的单策略多智能体框架

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

用想象力思考：基于世界模拟器的主动式视觉空间推理

伪代码引导的结构化推理：实现视觉语言模型中可靠推理的自动化

面向多模态推理的结构化角色感知策略优化

更多推理，更低准确性？论视觉语言模型中推理的双重性

提交意见反馈