AIPO:通过与主动交互学习推理

arXiv cs.CL 论文

摘要

本文介绍了 AIPO,一种强化学习框架,通过允许模型在探索过程中主动咨询协作智能体,从而克服能力边界,提升大语言模型的推理能力。

arXiv:2605.08401v1 公告类型:新发布 摘要:大型语言模型(LLM)的最新进展展示了卓越的推理能力,这在很大程度上得益于可验证奖励强化学习(RLVR)。然而,现有的强化学习算法面临一个根本性限制:其探索过程在很大程度上受限于策略模型固有的能力边界。尽管最近的方法引入了外部专家演示来扩展这一边界,但它们通常依赖于完整的轨迹级指导,这会导致样本效率低下、信息稀疏,并可能将探索限制在静态的指导空间内。受多智能体系统潜力的启发,我们提出了 $\textbf{AIPO}$,这是一种增强的强化学习框架,通过探索过程中的主动多智能体交互来提升 LLM 的推理能力。具体而言,当遇到推理瓶颈时,AIPO 使策略模型能够主动咨询三个功能性的协作智能体——$\textit{验证智能体}$(Verify Agent)、$\textit{知识智能体}$(Knowledge Agent)和 $\textit{推理智能体}$(Reasoning Agent),从而接收细粒度且有针对性的指导,以在训练过程中主动扩展其能力边界。我们进一步引入了一种定制的重要性采样系数以及裁剪策略,以缓解从智能体提供的反馈中学习时出现的离策略偏差和梯度消失问题。训练完成后,策略模型独立执行推理,而无需依赖协作智能体。在包括 AIME、MATH500、GPQA-Diamond 和 LiveCodeBench 在内的各种推理基准上的广泛实验表明,AIPO 持续提升了推理性能,在不同的策略模型和 RLVR 算法中表现出稳健的泛化能力,并有效地扩展了策略模型的推理能力边界。
查看原文
查看缓存全文

缓存时间: 2026/05/12 06:43

# AIPO:通过主动交互学习推理

来源:https://arxiv.org/abs/2605.08401
查看 PDF (https://arxiv.org/pdf/2605.08401)

> 摘要:大型语言模型(LLMs)的最新进展展现了卓越的推理能力,这在很大程度上得益于可验证奖励下的强化学习(RLVR)。然而,现有的强化学习算法面临一个根本性限制:其探索过程主要受限于策略模型固有的能力边界。尽管近期方法引入了外部专家演示来扩展这一边界,但它们通常依赖于完整的轨迹级引导,这导致样本效率低下、信息稀疏,且可能将探索局限在静态的引导空间中。受多智能体系统潜力的启发,我们提出了 **AIPO**,这是一种增强的强化学习框架,通过在探索过程中进行主动的多智能体交互来提升 LLM 的推理能力。具体而言,当遇到推理瓶颈时,AIPO 使策略模型能够主动咨询三个功能协作智能体——**验证智能体(Verify Agent)**、**知识智能体(Knowledge Agent)**和**推理智能体(Reasoning Agent)**,从而获得细粒度和有针对性的指导,在训练过程中主动扩展其能力边界。此外,我们引入了专门设计的重要性采样系数以及裁剪策略,以缓解从智能体提供的反馈中学习时产生的离策略偏差和梯度消失问题。训练完成后,策略模型能够独立进行推理,而无需依赖协作智能体。在包括 AIME、MATH500、GPQA-Diamond 和 LiveCodeBench 在内的多样化推理基准上的大量实验表明,AIPO 始终能提升推理性能,在不同的策略模型和 RLVR 算法之间展现出强大的泛化能力,并有效地扩展了策略模型的推理能力边界。

## 提交历史

作者:Junnan Liu [查看邮箱 (https://arxiv.org/show-email/39f1784c/2605.08401)] **[v1]** 2026年5月8日 星期五 19:06:55 UTC (1,405 KB)

相似文章

AIP:一种用于学习和管理智能体技能的图表示方法

arXiv cs.AI

智能体指令协议(AIP)提出将 AI 智能体技能建模为带有 schema 验证 YAML 规范的有向执行图,以取代自由形式的文本指令。实验表明,AIP 编译将 Claude Sonnet 在 27 个真实智能体任务上的平均任务奖励从 0.60 提升至 0.71,通过率从 53% 提升至 67%。

CiPO:通过迭代偏好优化实现大型推理模型的反事实遗忘

arXiv cs.CL

CiPO是一种新颖的机器遗忘框架,用于大型推理模型,它利用迭代偏好优化和反事实推理轨迹,在保持推理能力的同时选择性移除不想要的知识。该方法通过生成逻辑上有效的替代推理路径,解决了依赖于链式思维推理的模型中的遗忘挑战。

RICE-PO:将检索交互转化为推理代理的信用信号

arXiv cs.CL

RICE-PO 是一个无需评判器的策略优化框架,它将检索交互转化为局部化信用信号,用于训练推理代理。在相同检索器设置下,该框架在 BRIGHT 和 BEIR 基准测试中持续优于基于提示的代理和基于组的强化学习基线。