AIPO：通过与主动交互学习推理

arXiv cs.CL 2026/05/12 04:00 论文

摘要

本文介绍了 AIPO，一种强化学习框架，通过允许模型在探索过程中主动咨询协作智能体，从而克服能力边界，提升大语言模型的推理能力。

arXiv:2605.08401v1 公告类型：新发布摘要：大型语言模型（LLM）的最新进展展示了卓越的推理能力，这在很大程度上得益于可验证奖励强化学习（RLVR）。然而，现有的强化学习算法面临一个根本性限制：其探索过程在很大程度上受限于策略模型固有的能力边界。尽管最近的方法引入了外部专家演示来扩展这一边界，但它们通常依赖于完整的轨迹级指导，这会导致样本效率低下、信息稀疏，并可能将探索限制在静态的指导空间内。受多智能体系统潜力的启发，我们提出了 $\textbf{AIPO}$，这是一种增强的强化学习框架，通过探索过程中的主动多智能体交互来提升 LLM 的推理能力。具体而言，当遇到推理瓶颈时，AIPO 使策略模型能够主动咨询三个功能性的协作智能体——$\textit{验证智能体}$（Verify Agent）、$\textit{知识智能体}$（Knowledge Agent）和 $\textit{推理智能体}$（Reasoning Agent），从而接收细粒度且有针对性的指导，以在训练过程中主动扩展其能力边界。我们进一步引入了一种定制的重要性采样系数以及裁剪策略，以缓解从智能体提供的反馈中学习时出现的离策略偏差和梯度消失问题。训练完成后，策略模型独立执行推理，而无需依赖协作智能体。在包括 AIME、MATH500、GPQA-Diamond 和 LiveCodeBench 在内的各种推理基准上的广泛实验表明，AIPO 持续提升了推理性能，在不同的策略模型和 RLVR 算法中表现出稳健的泛化能力，并有效地扩展了策略模型的推理能力边界。

查看原文

查看缓存全文

缓存时间: 2026/05/12 06:43

# AIPO：通过主动交互学习推理

来源：https://arxiv.org/abs/2605.08401
查看 PDF (https://arxiv.org/pdf/2605.08401)

> 摘要：大型语言模型（LLMs）的最新进展展现了卓越的推理能力，这在很大程度上得益于可验证奖励下的强化学习（RLVR）。然而，现有的强化学习算法面临一个根本性限制：其探索过程主要受限于策略模型固有的能力边界。尽管近期方法引入了外部专家演示来扩展这一边界，但它们通常依赖于完整的轨迹级引导，这导致样本效率低下、信息稀疏，且可能将探索局限在静态的引导空间中。受多智能体系统潜力的启发，我们提出了 **AIPO**，这是一种增强的强化学习框架，通过在探索过程中进行主动的多智能体交互来提升 LLM 的推理能力。具体而言，当遇到推理瓶颈时，AIPO 使策略模型能够主动咨询三个功能协作智能体——**验证智能体（Verify Agent）**、**知识智能体（Knowledge Agent）**和**推理智能体（Reasoning Agent）**，从而获得细粒度和有针对性的指导，在训练过程中主动扩展其能力边界。此外，我们引入了专门设计的重要性采样系数以及裁剪策略，以缓解从智能体提供的反馈中学习时产生的离策略偏差和梯度消失问题。训练完成后，策略模型能够独立进行推理，而无需依赖协作智能体。在包括 AIME、MATH500、GPQA-Diamond 和 LiveCodeBench 在内的多样化推理基准上的大量实验表明，AIPO 始终能提升推理性能，在不同的策略模型和 RLVR 算法之间展现出强大的泛化能力，并有效地扩展了策略模型的推理能力边界。

## 提交历史

作者：Junnan Liu [查看邮箱 (https://arxiv.org/show-email/39f1784c/2605.08401)] **[v1]** 2026年5月8日 星期五 19:06:55 UTC (1,405 KB)

AIPO：通过与主动交互学习推理

相似文章

IAPO：面向小规模多模态智能体工具使用的输入归因感知策略优化

学习探索：通过探索感知策略优化扩展代理推理

AIP：一种用于学习和管理智能体技能的图表示方法

CiPO：通过迭代偏好优化实现大型推理模型的反事实遗忘

RICE-PO：将检索交互转化为推理代理的信用信号

提交意见反馈