轨迹级监督何时允许高效离线强化学习?

Hugging Face Daily Papers 论文

摘要

本文为基于轨迹级结果监督的离线强化学习建立了统计理论,提出了OPAC算法,并刻画了在此类监督下何时能够实现高效学习,以及何时存在根本性障碍。

离线强化学习通常在过程级奖励监督下进行分析,然而许多序列决策数据集仅记录轨迹级结果。我们针对此类结果级监督下的离线策略优化建立了统计理论。我们首先研究规范设定:目标仍为期望累积奖励,但每条离线轨迹仅提供一个标量标签,其条件均值即为累积回报。我们提出OPAC算法——一种悲观演员-评论家算法,它学习潜在奖励模型并从轨迹级标签优化策略。我们证明了阶为\(\widetilde O(H^2 C_{sa(\pi^\star)}/n)\)的高概率保证以及匹配的下界,刻画了用单个轨迹级标签替代过程级奖励所带来的尖锐统计代价。接着,我们将原理扩展到基于偏好的反馈,在偏好模型常数范围内保持了领先的回合长度和可集中性依赖性。最后,我们研究广义基于结果的离线强化学习,其中监督和目标均为由潜在每步奖励的非线性聚合所诱导的轨迹级量。该问题通常不可学习:对于全成功目标,即使转移确定且可集中性恒定,任意离线学习器也可能需要\(\Omega(2^H)\)条轨迹。随后,我们通过两个结构系数\(\kappa_\mu(\sigma)\)和\(\chi_\mu(\sigma)\)确定了一个可处理区域,这两个系数刻画了结果聚合和广义贝尔曼更新中的信息损失,在此区域下广义OPAC可实现多项式样本复杂度。综上,我们的结果描绘了轨迹级监督何时能够实现样本高效的离线控制,以及缺少过程级奖励何时会带来根本性统计障碍。
查看原文
查看缓存全文

缓存时间: 2026/06/18 19:58

论文页面 - 轨迹级监督何时允许高效的离线强化学习?

来源:https://huggingface.co/papers/2606.18531

摘要

针对轨迹级结果监督的离线强化学习存在统计挑战,可以通过悲观演员-评论家方法加以解决,但对于某些广义基于结果的问题,存在根本性障碍。

离线强化学习 (https://huggingface.co/papers?q=Offline%20reinforcement%20learning) 通常在过程级奖励监督 (https://huggingface.co/papers?q=process-level%20reward%20supervision) 下进行分析,然而许多序列决策数据集仅记录轨迹级结果 (https://huggingface.co/papers?q=trajectory-level%20outcomes)。我们针对此类结果级监督下的离线策略优化 (https://huggingface.co/papers?q=policy%20optimization) 发展了一套统计理论。首先研究典型设定:目标仍然是期望累积奖励,但每条离线轨迹仅提供一个标量标签,其条件均值即为累积回报。我们提出 OPAC (https://huggingface.co/papers?q=OPAC),一种悲观演员-评论家 (https://huggingface.co/papers?q=pessimistic%20actor-critic) 算法,学习一个潜在奖励模型 (https://huggingface.co/papers?q=latent%20reward%20model) 并从轨迹级标签优化策略。我们证明了阶数为 widetilde O(H^2C_{sa(π^star)/n}) 的高概率保证 (https://huggingface.co/papers?q=high-probability%20guarantee) 和一个匹配的下界 (https://huggingface.co/papers?q=lower%20bound),刻画了用一条轨迹级标签替代过程级奖励的精确统计代价。随后,我们将该原理扩展到基于偏好的反馈 (https://huggingface.co/papers?q=preference-based%20feedback),在保留主导的视界和可集中性 (https://huggingface.co/papers?q=concentrability) 依赖关系的同时,引入偏好模型常数。最后,我们研究广义的基于结果的离线强化学习,其中监督和目标都是由潜在逐步骤奖励的非线性聚合产生的轨迹级量。该问题在一般情况下不可学习:对于全成功目标,任何离线学习器可能需要 Ω(2^H) 条轨迹,即使具有确定性转移和常数可集中性 (https://huggingface.co/papers?q=concentrability)。我们通过两个结构系数 κ_μ(σ) 和 χ_μ(σ) 识别出一个可处理区域,这些系数捕捉了结果聚合和广义贝尔曼更新 (https://huggingface.co/papers?q=Bellman%20updates) 中的信息损失,在该区域下广义 OPAC (https://huggingface.co/papers?q=OPAC) 实现了多项式样本复杂度 (https://huggingface.co/papers?q=sample%20complexity)。综合而言,我们的结果描述了结果级监督何时能够实现样本高效的离线控制,以及缺少过程级奖励何时会造成根本性统计障碍。

查看 arXiv 页面 (https://arxiv.org/abs/2606.18531)查看 PDF (https://arxiv.org/pdf/2606.18531)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18531)

在您的智能体中获取此论文:

hf papers read 2606.18531

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.18531 以从此页面链接。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.18531 以从此页面链接。

引用此论文的 Space0

暂无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.18531 以从此页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

离线偏好轨迹评估

arXiv cs.LG

本文提出了一种针对智能体系统的离线偏好轨迹评估方法,通过时间偏好而非二元成功指标来比较轨迹。研究表明,该方法将平局比例从约75%降低到35%,从而提升了跨多样化基准的区分能力和数据效率。

StraTA:通过策略轨迹抽象激励智能体强化学习

Hugging Face Daily Papers

StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。

利用强化微调克服视觉连续学习中的灾难性遗忘

Hugging Face Daily Papers

本文提出保留感知策略优化(RaPO),通过强化微调缓解视觉连续学习中的灾难性遗忘。RaPO采用轨迹级奖励塑形和跨任务优势归一化,缩小了类增量学习和域增量学习中强化微调与监督微调之间的差距。