寻找思考的时间：实时强化学习中的规划预算学习

arXiv cs.LG 2026/06/26 04:00 论文

摘要

本文引入了可变延迟实时强化学习，其中智能体决定在环境持续运行的情况下需要多长时间的思考，并提出了一种轻量级的门控策略来选择基于状态的规划预算，在多个实时游戏中优于固定预算和启发式基线。

arXiv:2606.26463v1 公告类型：新摘要：思考需要时间。在实时场景中，这个时间并非免费。标准的强化学习（RL）绕过了这一问题，因为环境会无限期等待智能体的决策。相反，我们研究实时RL环境，其中环境在等待智能体动作的同时会继续推进。基于先前的实时形式化，我们引入了可变延迟实时RL，其中智能体在每个决策点选择思考多长时间，因为环境在不断推进。对于我们使用的规划智能体，正确的延迟取决于状态，而简单地规划如何规划可能会导致智能体瘫痪。我们通过训练一个轻量级的门控策略来设置在规划器之上的、基于状态的规划预算，从而解决这一设置。在实时Pac-Man、Tetris、Snake、Speed Hex和Speed Go中，我们的门控策略优于固定预算和启发式基线，并且可以迁移到环境和智能体运行在两个不同GPU上的实时设置中。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:19

# 在实时强化学习中学习规划预算 来源：https://arxiv.org/html/2606.26463 ## 找到思考的时间：实时强化学习中的学习规划预算 ###### 摘要 斟酌需要时间。在实时场景中，时间并非免费。标准强化学习（RL）通过让环境无限期等待智能体决策来回避此问题。相反，我们研究实时强化学习环境，其中在等待智能体动作时环境仍在推进。基于先前的实时形式化，我们引入了*可变延迟实时强化学习*，其中智能体在每个决策点自行决定思考多久，因为环境在同步推进。对于我们所使用的规划智能体，恰当的延迟依赖于状态，而简单地规划“该规划多久”可能会让智能体陷入瘫痪。我们转而通过训练一个轻量级门控策略，将其置于规划器之上，以选择依赖状态的规划预算来解决此问题。在实时版吃豆人、俄罗斯方块、贪吃蛇、快速六角棋和快速围棋中，我们的门控策略优于固定预算和启发式基线，并可迁移至一个实时硬件设置——环境中智能体分别在两块不同GPU上运行，无需重新训练或修改架构。 ## 1 引言 专家决策者不会对每个选择都投入同等的思考强度。他们必须识别哪些决策需要更多时间或精力来思考，哪些可以快速做出，因为他们在决策过程中的认知资源是有限的（otto2019opportunity）。例如，在快棋中管理时间的优秀棋手会快速下出大部分着法，而将时间留给自己需要更长时间思考的关键局面。 在标准RL和马尔可夫决策过程（MDP）中，环境会等待智能体在提交动作前进行无限期思考，计算不产生任何成本。实时设置打破了这一假设：即使智能体花更长时间行动，世界仍在持续推进。思考的成本并非挂钟延迟，而是智能体尚在决策时环境向前推进的步数。一个完美的动作若晚了一刻执行，可能远不如一个及时但足够好的动作。Ramstedt等人（2019）通过将动作延迟固定为恰好一个时间步来形式化这一关注点。我们推广了Ramstedt等人（2019）的框架，引入了*可变延迟实时强化学习*，其中智能体是一个在时间中运行的过程，而非一个单帧函数，因此生成任何特定动作的计算所花费的时间都会以世界的推进作为代价。 我们使用能通过任意时间规划算法来提高动作质量的智能体来探索这一设置，但必须面对这样做会使环境在思考过程中持续演变的问题。具体来说，我们使用AlphaZero风格的模型（silver2018general），它在决策时运行蒙特卡洛树搜索（MCTS）以提高动作质量（参见附录B（https://arxiv.org/html/2606.26463#A2）作为入门）。这些智能体有一个特性：更多搜索能产生更好的动作，但运行时间更长，我们在实证中验证了规划质量与推理延迟是一起增长的（图3（https://arxiv.org/html/2606.26463#S4.F3））。 我们的设定引入了三个挑战。首先，选择正确的延迟依赖于状态：某些状态奖励周密的规划，而另一些则要求立即反应。其次，智能体在中间帧必须承诺*某种*动作，因为环境不会等待规划器。最后，决定思考多久本质上是一个*元推理*问题（russell1991right; horvitz2013reasoning），这导致了一个明显的*规划之规划悖论*：元决策发生在环境持续演变的过程中，因此决定思考多久本身可能招致与思考本身相同的每帧成本。 我们通过训练一个轻量级*门控策略*，置于*冻结的*规划器之上，来应对这些挑战。该门控策略在每个决策点决定规划多久。我们的设计在实践中避开了悖论，因为单次门控前向传播的成本比一次MCTS推演要低几个数量级，因此引入的实时开销可以忽略不计。 我们在*实时*吃豆人、俄罗斯方块、贪吃蛇（其中世界在规划器后台运行时持续推进，图1（https://arxiv.org/html/2606.26463#S1.F1））以及*计时环境*（快速六角棋、快速围棋，其中棋盘静止但每位玩家有一个随思考时间减少的计时器）中采用了我们的*门控策略*。第3节（https://arxiv.org/html/2606.26463#S3）对两者都进行了形式化。 我们的贡献如下： 1. **可变延迟实时强化学习**。对Ramstedt等人（2019）固定延迟框架的推广：在实时交互协议下，智能体是一个在时间中运行的过程，而非一个瞬时求值的函数，生成任何动作所花费的时间都以世界的推进作为代价。 2. **规划质量与推理时间**。我们从经验上刻画了规划质量与实时推理成本如何随MCTS模拟次数共同增长，建立了促使自适应分配成为必要的联合权衡关系。 3. **基于冻结规划器的自适应门控**。一个轻量级门控策略，使用PPO在冻结的AlphaZero规划器之上进行训练，在每个决策点选择依赖于状态的规划预算。 参考题注 图1：给定当前状态，门控策略选择是立即反应还是花时间规划，选择规划的时间步数k k 。智能体使用πreflex π reflex （π0 π 0 ）执行k−1 k - 1个承诺动作，同时MCTS进行规划，最后执行规划好的动作。 在五个环境中，自适应地在一组规划预算中进行选择的门控策略，优于每步都使用单一固定规划预算的基线。为了验证我们设计的环境和方法能够捕捉实时决策中的挑战，我们将训练好的门控策略迁移到一个实时硬件设置中——环境在一个GPU上运行，智能体在另一个GPU上运行，无需重新训练或修改架构，以证明其表现有效。 ## 2 相关工作 **实时强化学习与延迟MDP**。标准MDP假设环境在动作选择期间等待。Travnik等人（2018）指出这与实时交互存在根本性不匹配，Ramstedt等人（2019）形式化了一种替代方案，其中智能体恰好有一个时间步来计算其下一个动作，这在数学上等价于一个一步恒延迟MDP（walsh2009delayed）。后续工作将其扩展到更长的固定动作和观察延迟（derman2021delayed; bouteiller2021random; katsikopoulos2003markov）、并发控制（xiao2020thinking）以及异步和流水线架构以缓解推理成本（riemer2025staggered; anokhin2025handling）。在这些文献中，延迟由系统施加。我们则让智能体在每个决策点自己选择延迟，将延迟选择本身变成一个学习问题。 **计算价值与元推理**。理性智能体不仅必须考虑该做什么，还必须考虑思考多少，这一观点可以追溯到有限理性（simon1972theories）和古德的*第二类理性*（good1952rational）。Russell等人（1991）通过定义*计算价值*（VOC）——决策质量的预期提升减去其成本——使这一概念变得可操作，而有限最优性（russell1991architecture）则将理性智能体重构为对固定计算资源的最优使用。任意时间算法（dean1988analysis; zilberstein1996using; likhachev2003ara; korf1990rta）在给定更多时间时能产生单调改善的答案，而贝叶斯弹性计算方法（horvitz1989reflection）形式化何时停止。应用于MCTS时，计算价值的思想产生了关于下一步运行哪个模拟的贝叶斯形式化（hay2012selecting; tolpin2012simple; sezener2020static; lin2015metareasoning），而经典的国际象棋和围棋引擎时间管理则通过手工设计的启发式算法来分配每步计时（baier2016time; huang2010timemanagement; baudivs2011pachi）。认知科学文献将有限思考本身建模为一个元MDP，其动作就是计算（lieder2017strategy; griffiths2019doing; callaway2018learning; cope_learning_2023），并从实证上表明人类在高赌注决策上分配规划努力的方式符合该模型的预测。我们的门控策略属于这一谱系：它是一个学习得到的估计器，为每个决策选择总预算，而非下一步运行哪个模拟，形式化为一个基于冻结规划器的元MDP。 **基于模型的强化学习中的自适应计算**。与我们的工作最接近的是那些在基于模型的RL智能体之上学习分配规划计算的工作。元控制（hamrick2017metacontrol）选择想象步数；Thinker和Dynamic Thinker（chung2023thinker; wang2024dynamic）让智能体决定何时在学到的世界模型之上想象替代轨迹；hamrick2021role提供了关键的实证动机：浅层MuZero树往往就足够了，而额外模拟的边际价值在不同状态间差异很大。AlphaZero系列规划器（silver2018general; schrittwieser2020muzero; danihelka2022policy）将MCTS预算视为固定的部署超参数。其他“学习搜索”的轴线（guez2018mctsnets; farquhar2018treeqn; hamrick2020save; racaniere2017i2a）则修改规划器的内部行为而非其预算；我们保持规划器固定，仅控制其运行时间。 **语言模型中的自适应计算**。同样的论点在序列模型中独立发展起来。PonderNet与自适应计算时间（graves2016act; banino2021pondernet; schuster2022calm）学习每个输入的停止条件；测试时计算扩展（snell2024scaling; deepseek2025r1; muennighoff2025s1）和通过强化学习训练的推理长度控制器（aggarwal2025l1; muppidi2025predictive; fang2025thinkless; shen2025dast）学习每个查询的思考预算；级联路由（kim2023bigl; chen2023frugalgpt; ong2025routellm）将简单查询交给廉价模型。共同的论点是，一个小的学习策略可以有利地决定每个决策花费多少计算。我们的设置结构上不同：思考的成本内生于环境动态，因此思考时间更长会改变智能体最终行动时的状态，而不是招致外部惩罚。 **我们的设定**。我们与上述工作共享相同论点，但解决了一个它们都不涉及的设定。我们将Ramstedt等人（2019）的固定延迟框架推广为可变延迟，其中思考的成本以*环境推进*来支付，而非人为的奖励整形，因此门控策略仅从结果中学习模拟预算的价值。我们在一个*冻结的*AlphaZero风格规划器上运行门控，无需联合训练，形式化为一个基于选项的元MDP（sutton1999between; bacon2017optioncritic），其中持有时间即为所选预算。我们还引入了一个协议，使这种实时成本在训练过程中清晰可见，并描述真正异步执行的动态，因此训练好的策略可以迁移到双GPU部署，无需任何架构修改。 ## 3 可变延迟实时强化学习 ### 3.1 问题：实时MDP 考虑一个标准MDP E=(S,A,P,r,γ) E = ( S , A , P , r , γ ) 。*实时交互协议*仅改变智能体与环境交换动作的方式：无论智能体如何，环境每固定间隔 t=0,1,2,... t = 0 , 1 , 2 , ... 前进一帧，每帧应用智能体届时已提交的任何动作，如果未提交则默认使用环境定义的备选动作（通常为no-op）。MDP和回报 E[∑tγtrt] E [ ∑ t γ t r t ] 保持不变。因此，智能体不再是一个函数 π:S→Δ(A) π : S → Δ ( A ) ，而是一个在时间中运行并每帧发射一个动作的*过程*。这是唯一的变化，但具有一个尖锐的后果：思考的成本是世界的推进，因为环境在智能体计算过程中持续前进。 #### 与现有实时强化学习的关系。Ramstedt等人（2019）的实时MDP是智能体的过程被约束为一个恰好用一帧求值的函数 π:S→Δ(A) π : S → Δ ( A ) 的特例——等价于一个一步恒延迟MDP（walsh2009delayed）。长度为K的固定延迟MDP（walsh2009delayed; derman2021delayed）将过程的延迟固定为K帧。我们的设定涵盖了这两者：任何满足每帧一个动作约定的过程都是有效的，而智能体（而非环境）决定任何特定计算占用多少帧。 ### 3.2 解决方案：基于预算选项的SMDP 实时协议未指定智能体的过程。我们的框架由三个要素构建：一个快速的*反射策略*，它在每帧提供一个动作；一个有限集合的慢但更好的*任意时间动作精化计算*，当智能体能等待时调用；以及一个学得的*门控策略*，它在每次元决策时决定运行哪个计算（如果有）。前两个被组合为时间扩展的*预算选项*；门控策略在半马尔可夫决策过程（SMDP）中作为这些选项上的元策略运行。 #### 反射策略。我们承诺使用一个单独的快速策略 πreflex(a∣s) π ref lex ( a ∣ s ) ，它在远不足一帧的时间内运行。无论后台还在计算什么，它都在实时协议下提供智能体每帧的输出。第3.3节（https://arxiv.org/html/2606.26463#S3.SS3）和第3.4节（https://arxiv.org/html/2606.26463#S3.SS4）为每个环境实例化 πreflex π ref lex 。 #### 任意时间动作精化计算。我们额外为智能体配备一个有限的*任意时间动作精化计算*族 {ck}k∈K { c k } k ∈ K （russell1991right; zilberstein1996using），由离散持续时间 k∈K k ∈ K 索引：每个 ck c k 是一个任意时间算法，其工作是在给定更多计算时精化动作选择。计算 ck c k 一旦启动就恰好运行k帧，并在其第k帧开始时，在启动它的状态 stn s t n 处产生一个精化的动作分布 πk(⋅∣stn) π k ( ⋅ ∣ s t n ) ；运行时间更长的 ck c k 预期产生更好的动作，我们为我们的实例化在图3（https://arxiv.org/html/2606.26463#S4.F3）中验证了这一特性。在本文中，我们将 ck c k 实例化为从 stn s t n 运行k帧的MCTS，但该框架适用于任何具有已知每预算持续时间的任意时间动作精化算法。 #### 预算选项。对于每个 k∈K k ∈ K ，我们定义一个*预算选项* ok o k 111我们的预算选项是sutton1999between的半马尔可夫选项的一个特例：一个选项是一个三元组 ⟨I,π,β⟩ ⟨ I , π , β ⟩ ，具有输入集 I I 、内部策略 π π 和终止条件 β β 。Sutton、Precup和Singh（1999）指出，“有时让选项‘超时’，如果经过一段时间仍未到达任何特定状态则终止，是有用的”，并且这需要半马尔可夫推广，其中 β β 可以依赖自选项启动以来的历史。每个 ok o k 正好使用这一构造：在k个原始帧后确定性终止。参见Sutton、Precup和Singh（1999）第4节以了解完整形式化。它们将 ck c k 包装成一个单一的时间扩展

寻找思考的时间：实时强化学习中的规划预算学习

相似文章

不仅关乎位置，更关乎时机：RLVR中的时间调度

交易前规划：面向RL交易代理的推理时优化

Thoughts-as-Planning: 通过强化规划进行思维链优化的潜在世界模型

性能驱动的多时间尺度学习环境抽象

@blc_16: 如果你想了解为什么强化学习在处理长视界智能体任务时表现不佳，这是一个很好的解释。核心问题在于……

提交意见反馈