轨迹级监督何时允许高效离线强化学习？

Hugging Face Daily Papers 2026/06/16 00:00 论文

摘要

本文为基于轨迹级结果监督的离线强化学习建立了统计理论，提出了OPAC算法，并刻画了在此类监督下何时能够实现高效学习，以及何时存在根本性障碍。

离线强化学习通常在过程级奖励监督下进行分析，然而许多序列决策数据集仅记录轨迹级结果。我们针对此类结果级监督下的离线策略优化建立了统计理论。我们首先研究规范设定：目标仍为期望累积奖励，但每条离线轨迹仅提供一个标量标签，其条件均值即为累积回报。我们提出OPAC算法——一种悲观演员-评论家算法，它学习潜在奖励模型并从轨迹级标签优化策略。我们证明了阶为\(\widetilde O(H^2 C_{sa(\pi^\star)}/n)\)的高概率保证以及匹配的下界，刻画了用单个轨迹级标签替代过程级奖励所带来的尖锐统计代价。接着，我们将原理扩展到基于偏好的反馈，在偏好模型常数范围内保持了领先的回合长度和可集中性依赖性。最后，我们研究广义基于结果的离线强化学习，其中监督和目标均为由潜在每步奖励的非线性聚合所诱导的轨迹级量。该问题通常不可学习：对于全成功目标，即使转移确定且可集中性恒定，任意离线学习器也可能需要\(\Omega(2^H)\)条轨迹。随后，我们通过两个结构系数\(\kappa_\mu(\sigma)\)和\(\chi_\mu(\sigma)\)确定了一个可处理区域，这两个系数刻画了结果聚合和广义贝尔曼更新中的信息损失，在此区域下广义OPAC可实现多项式样本复杂度。综上，我们的结果描绘了轨迹级监督何时能够实现样本高效的离线控制，以及缺少过程级奖励何时会带来根本性统计障碍。

查看原文

查看缓存全文

缓存时间: 2026/06/18 19:58

论文页面 - 轨迹级监督何时允许高效的离线强化学习？

来源：https://huggingface.co/papers/2606.18531

摘要

针对轨迹级结果监督的离线强化学习存在统计挑战，可以通过悲观演员-评论家方法加以解决，但对于某些广义基于结果的问题，存在根本性障碍。

离线强化学习 (https://huggingface.co/papers?q=Offline%20reinforcement%20learning) 通常在过程级奖励监督 (https://huggingface.co/papers?q=process-level%20reward%20supervision) 下进行分析，然而许多序列决策数据集仅记录轨迹级结果 (https://huggingface.co/papers?q=trajectory-level%20outcomes)。我们针对此类结果级监督下的离线策略优化 (https://huggingface.co/papers?q=policy%20optimization) 发展了一套统计理论。首先研究典型设定：目标仍然是期望累积奖励，但每条离线轨迹仅提供一个标量标签，其条件均值即为累积回报。我们提出 OPAC (https://huggingface.co/papers?q=OPAC)，一种悲观演员-评论家 (https://huggingface.co/papers?q=pessimistic%20actor-critic) 算法，学习一个潜在奖励模型 (https://huggingface.co/papers?q=latent%20reward%20model) 并从轨迹级标签优化策略。我们证明了阶数为 widetilde O(H^2C_{sa(π^star)/n}) 的高概率保证 (https://huggingface.co/papers?q=high-probability%20guarantee) 和一个匹配的下界 (https://huggingface.co/papers?q=lower%20bound)，刻画了用一条轨迹级标签替代过程级奖励的精确统计代价。随后，我们将该原理扩展到基于偏好的反馈 (https://huggingface.co/papers?q=preference-based%20feedback)，在保留主导的视界和可集中性 (https://huggingface.co/papers?q=concentrability) 依赖关系的同时，引入偏好模型常数。最后，我们研究广义的基于结果的离线强化学习，其中监督和目标都是由潜在逐步骤奖励的非线性聚合产生的轨迹级量。该问题在一般情况下不可学习：对于全成功目标，任何离线学习器可能需要 Ω(2^H) 条轨迹，即使具有确定性转移和常数可集中性 (https://huggingface.co/papers?q=concentrability)。我们通过两个结构系数 κ_μ(σ) 和 χ_μ(σ) 识别出一个可处理区域，这些系数捕捉了结果聚合和广义贝尔曼更新 (https://huggingface.co/papers?q=Bellman%20updates) 中的信息损失，在该区域下广义 OPAC (https://huggingface.co/papers?q=OPAC) 实现了多项式样本复杂度 (https://huggingface.co/papers?q=sample%20complexity)。综合而言，我们的结果描述了结果级监督何时能够实现样本高效的离线控制，以及缺少过程级奖励何时会造成根本性统计障碍。

查看 arXiv 页面 (https://arxiv.org/abs/2606.18531)查看 PDF (https://arxiv.org/pdf/2606.18531)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18531)

在您的智能体中获取此论文：

hf papers read 2606.18531

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.18531 以从此页面链接。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.18531 以从此页面链接。

引用此论文的 Space0

暂无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.18531 以从此页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

轨迹级监督何时允许高效离线强化学习？

论文页面 - 轨迹级监督何时允许高效的离线强化学习？

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

离线偏好轨迹评估

将结果监督内化为过程监督：推理强化学习的新范式

StraTA：通过策略轨迹抽象激励智能体强化学习

带有自回归思维链推理的在线学习理论

利用强化微调克服视觉连续学习中的灾难性遗忘

提交意见反馈