轨迹级监督何时允许高效离线强化学习?
摘要
本文为基于轨迹级结果监督的离线强化学习建立了统计理论,提出了OPAC算法,并刻画了在此类监督下何时能够实现高效学习,以及何时存在根本性障碍。
查看缓存全文
缓存时间: 2026/06/18 19:58
论文页面 - 轨迹级监督何时允许高效的离线强化学习?
来源:https://huggingface.co/papers/2606.18531
摘要
针对轨迹级结果监督的离线强化学习存在统计挑战,可以通过悲观演员-评论家方法加以解决,但对于某些广义基于结果的问题,存在根本性障碍。
离线强化学习 (https://huggingface.co/papers?q=Offline%20reinforcement%20learning) 通常在过程级奖励监督 (https://huggingface.co/papers?q=process-level%20reward%20supervision) 下进行分析,然而许多序列决策数据集仅记录轨迹级结果 (https://huggingface.co/papers?q=trajectory-level%20outcomes)。我们针对此类结果级监督下的离线策略优化 (https://huggingface.co/papers?q=policy%20optimization) 发展了一套统计理论。首先研究典型设定:目标仍然是期望累积奖励,但每条离线轨迹仅提供一个标量标签,其条件均值即为累积回报。我们提出 OPAC (https://huggingface.co/papers?q=OPAC),一种悲观演员-评论家 (https://huggingface.co/papers?q=pessimistic%20actor-critic) 算法,学习一个潜在奖励模型 (https://huggingface.co/papers?q=latent%20reward%20model) 并从轨迹级标签优化策略。我们证明了阶数为 widetilde O(H^2C_{sa(π^star)/n}) 的高概率保证 (https://huggingface.co/papers?q=high-probability%20guarantee) 和一个匹配的下界 (https://huggingface.co/papers?q=lower%20bound),刻画了用一条轨迹级标签替代过程级奖励的精确统计代价。随后,我们将该原理扩展到基于偏好的反馈 (https://huggingface.co/papers?q=preference-based%20feedback),在保留主导的视界和可集中性 (https://huggingface.co/papers?q=concentrability) 依赖关系的同时,引入偏好模型常数。最后,我们研究广义的基于结果的离线强化学习,其中监督和目标都是由潜在逐步骤奖励的非线性聚合产生的轨迹级量。该问题在一般情况下不可学习:对于全成功目标,任何离线学习器可能需要 Ω(2^H) 条轨迹,即使具有确定性转移和常数可集中性 (https://huggingface.co/papers?q=concentrability)。我们通过两个结构系数 κ_μ(σ) 和 χ_μ(σ) 识别出一个可处理区域,这些系数捕捉了结果聚合和广义贝尔曼更新 (https://huggingface.co/papers?q=Bellman%20updates) 中的信息损失,在该区域下广义 OPAC (https://huggingface.co/papers?q=OPAC) 实现了多项式样本复杂度 (https://huggingface.co/papers?q=sample%20complexity)。综合而言,我们的结果描述了结果级监督何时能够实现样本高效的离线控制,以及缺少过程级奖励何时会造成根本性统计障碍。
查看 arXiv 页面 (https://arxiv.org/abs/2606.18531)查看 PDF (https://arxiv.org/pdf/2606.18531)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18531)
在您的智能体中获取此论文:
hf papers read 2606.18531
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
暂无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.18531 以从此页面链接。
引用此论文的数据集0
暂无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.18531 以从此页面链接。
引用此论文的 Space0
暂无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.18531 以从此页面链接。
包含此论文的收藏集0
暂无收藏集包含此论文
请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
离线偏好轨迹评估
本文提出了一种针对智能体系统的离线偏好轨迹评估方法,通过时间偏好而非二元成功指标来比较轨迹。研究表明,该方法将平局比例从约75%降低到35%,从而提升了跨多样化基准的区分能力和数据效率。
将结果监督内化为过程监督:推理强化学习的新范式
介绍了 IOP,这是一个将结果监督内化为过程监督以用于推理强化学习的框架,能够在无需外部标注的情况下实现细粒度的信用分配。
StraTA:通过策略轨迹抽象激励智能体强化学习
StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。
带有自回归思维链推理的在线学习理论
本文建立了一个关于自回归思维链推理的在线学习理论框架,分析了端到端监督和轨迹监督模型下的错误边界。
利用强化微调克服视觉连续学习中的灾难性遗忘
本文提出保留感知策略优化(RaPO),通过强化微调缓解视觉连续学习中的灾难性遗忘。RaPO采用轨迹级奖励塑形和跨任务优势归一化,缩小了类增量学习和域增量学习中强化微调与监督微调之间的差距。