通过深度强化学习的连续时间最优停止

arXiv cs.LG 2026/06/17 04:00 论文

摘要

本文介绍了CARLOS，一种深度强化学习算法，它利用聚合深度神经网络学习美式期权的连续时间最优停止规则，有效缩小了百慕大与美国期权之间的价值差距，并具有较高的计算效率。

arXiv:2606.17545v1 公告类型：新摘要：基于模拟的最优停止问题求解器必须对停止决策进行离散化。在经典动态规划下，仅有少量停止机会的粗略行使网格可能会严重低估最优期望回报，而在非常精细的网格上，近似误差会通过后向递归累积。为了消除这一限制，我们开发了一种新的受强化学习启发的算法，使我们能够以任意精细的时间分辨率学习行使规则。我们的CARLOS（连续时间自适应强化学习最优停止）算法利用聚合深度神经网络（ADNN）学习一个联合时空决策边界。从粗时间网格开始，我们逐步增加停止机会的频率，同时并行训练ADNN以优化其时间价值估计。此外，我们设计了一种自适应采样策略，逐渐将训练集中在停止边界附近。基准测试结果表明，与现有的百慕大求解器相比，CARLOS提供了更高的价格，接近美国期权的上限，并且相对于非强化学习比较器实现了较高的计算效率。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:41

# 连续时间最优停时问题的深度强化学习求解方法 来源：https://arxiv.org/html/2606.17545 Cosmin Borsa 和 Mike Ludkovski（首次发布：2026 年 6 月 15 日） ###### 摘要 基于仿真的最优停时问题求解器必须对停时决策进行离散化处理。在经典动态规划框架下，一个仅有少数停时机会的粗粒度执行网格可能会严重低估最优期望奖励；而在非常细粒度的网格上，近似误差又会通过反向递推不断累积。为消除这一限制，我们开发了一种受强化学习启发的新算法，使我们能够在任意精细的时间分辨率下学习执行规则。我们的 CARLOS 算法利用一个聚合深度神经网络（ADNN）来学习联合的状态-时间决策边界。从粗粒度时间网格开始，我们逐步增加停时机会的频率，同时并行训练 ADNN 以精化其时间价值估计。此外，我们还设计了一种自适应采样策略，逐步将训练重点集中在停时边界附近。基准测试结果表明，与现有的百慕大期权求解器相比，CARLOS 能够提供更高的定价，接近美式期权的上界，并且相对于非强化学习对照算法，实现了较高的计算效率。 ## 1 引言 以 Longstaff-Schwartz（LSMC）框架[24] 为代表的基于仿真的最优停时问题（OSP）求解器，在过去 25 年里一直是量化金融工具箱的核心组成部分。实际上，OSP 无处不在，例如美国市场上所有单一名牌看跌期权（Put）的定价都会涉及。由于这些求解器利用模拟的底层随机过程路径进行操作，时间离散化是其实现中必不可少的一步。因此，惯例是聚焦于百慕大期权（Bermudan）的表述，其中预先指定了执行频率 Δt。现实中的合约是美式（American-style）的，可以在任何时刻执行。从数学上讲，时间步长 Δt 的作用已被充分理解[12]，并且基于 LSMC 的方法可以按任意频率实现，因此理论上可以以任意精度逼近美式合约的解。然而在实践中，LSMC 方法存在误差反向传播这一固有问题，且问题往往相当严重。因此，我们通常只能使用相当粗略的 Δt，这造成了与任意时刻执行价值之间的实质性差距。尽管关于 OSP 的机器学习文献[26] 已经非常丰富，但据我们所知，可行的百慕大求解器与原始美式合约规范之间的这种差距从未得到充分解决。在本文中，我们提出了一种新算法，专门针对美式合约。为此，我们采用强化学习（RL）来学习连续执行的最优停时策略。我们从粗粒度的 LSMC 求解器开始，逐步细化执行频率，利用神经网络（NN）代理来逼近底层的时间价值。这种细化可以一直进行到任意指定的频率 Δt^{ex}，并且由于不涉及反向迭代，它基本上消除了误差累积。我们证明，我们的方法 (i) 有效缩小了百慕大-美式价值差距；(ii) 比在高执行频率下运行 LSMC 的暴力方法效率高得多（即速度更快）。 我们求解器的核心思想是，将按时间步索引的一系列时间离散化停时规则聚合到单个深度神经网络代理中，该代理在整个时间 t 和输入状态 x 上连续逼近整个时间价值超曲面。这个神经网络为任何 t∈[0,T] 提供停时决策（而非像传统求解器中那样基于离散网格），主要任务变为训练它学习连续时间停时规则。这种从原始粗粒度执行规则到期望的连续执行频率的转变，带来了两个新的挑战，对其解决是我们方法论贡献的关键部分。 我们必须应对的第一个挑战是**概念漂移**——训练数据的分布在训练过程中会发生变化。这是因为支撑 LSMC 范式的路径化奖励本质上与执行频率紧密相关。因此，即使在相同的模拟路径上，停时时间和所获奖励也会随着执行频率的细化而改变。为解决这一挑战，我们与强化学习训练并行，逐步遍历一组执行网格。具体来说，我们表明一个好的经验法则是每隔几次强化学习迭代就将时间步长 Δt^{(b)} **减半**。第二个挑战与停时区域的固有收缩有关，随着 Δt→0，停时区域会收缩。这意味着某些输入在给定的 Δt 下可能位于停时区域，但在更小的 Δt' 下却最终位于继续区域。然而，基本方法会立即停止任何位于停时区域的路径，这实际上阻止了重新训练神经网络以扩大继续区域。为解决此问题，我们引入了一种新颖的“延迟停时”技术，为训练增加了探索性。 总而言之，我们提出的算法称为 CARLOS（连续时间自适应强化学习最优停时），它通过一个常规的（但粗粒度的）LSMC 步骤进行初始化，然后在遍历 3-6 个时间离散层级的同时，通过大约十几个强化学习循环来训练神经网络代理。最终的决策规则将 t 视为连续输入，并且可以在任意执行频率下进行评估。 ### 1.1 最优停时的强化学习方法 百慕大期权定价的主导方法依赖于动态规划（DP），其核心是反向递推。LSMC 策略[24] 从期权到期日 t_K=T 反向移动至 t_0=0，使用（线性）回归来学习继续价值，该价值对应于未来预期收益的条件期望。因此，在每个时间步 t_k 都要进行新的回归，并且该回归与决定这些未来收益的前期回归（对于 t_l > t_k）耦合，从而导致误差反向传播。 动态规划的替代方案借鉴了马尔可夫决策过程文献，即策略迭代和价值迭代技术。强化学习摒弃了递推逻辑，旨在从前向样本中学习全局停时策略。来自不同时间步的训练数据被联合用于改进空间和时间上的逼近，这类似于跨 t_k 的迁移学习。对于最优停时，这种学习是“强化的”，因为训练样本（即路径化奖励）是基于当前的停时规则和随机环境模拟的。因此，与 LSMC 不同，强化学习寻求一个单一的“聚合”状态-动作仿真器 Q(x,a)，其中状态 s≡(t,x) 现在既指代底层资产价值等随机状态，也指代时间 t。此类方法的早期版本出现在[33,38,23]中，它们使用线性逼近（对一组固定的基函数进行最小二乘回归）。Li 等人[23] 推导了最小二乘策略迭代的界限，这是使用基函数以**线性**方式表示动作-状态映射的强化学习实现。这种线性结构使得能够用底层的（有限样本）投影误差来表达强化学习策略误差。这种 Q 学习是我们强化学习框架的基础。 最优停时的一个特殊之处在于其动作空间特别简单，是二元的。用 a=0 表示停时，a=1 表示继续，那么 a=0 的奖励是显式的，因此我们只需要建模 Q(s,1)。Herrera 等人[17] 提出了 RRLM 变体，它使用随机化的 Q 拟合迭代来学习状态-动作仿真器。另一种受深度学习启发的离散时间最优停时强化学习实现在 [22] 中。强化学习的一个吸引力在于它能够处理完全数据驱动的设置，其中没有此类模型可用。对于美式期权定价，这相当于直接基于过去的股票价格轨迹进行训练，而无需指定随机动态。这种“无模型”的思想在[10] 和最近的 [9,7] 中得到了探索。应用强化学习的相关控制设置包括[8,37]。在我们的设置中，强化学习是基于模型的：随机环境被完全指定，因此可以生成任意多的样本。特别是，我们能够在训练过程中采用自适应采样，以优先探索感兴趣的区域。 ### 1.2 最优停时的深度学习方法 强化学习与深度学习自然交织在一起，因为策略学习或价值学习与神经网络代理的迭代训练密不可分。深度学习已被广泛应用于最优停时，本节我们总结相关文献。据我们所知，神经网络在 LSMC 中的首次应用是在 Kohler 等人[19] 的工作中，他们采用浅层单隐藏层神经网络来逼近支撑 Snell 包络的条件期望。最近，Lapeyre 和 Lelong[20] 以及 Becker 等人[3] 考虑了更先进的深度学习方法，特别是用于处理高维设置。使用神经网络的一个关键动机是为了规避传统 LSMC 中众所周知的基础函数选择挑战。因此，深度神经网络仿真器被用作灵活的逼近器，根据通用逼近定理的适当变体，可以证明（在网络规模增大的情况下）其收敛性[20,15]。虽然具有高表达能力，但训练神经网络是一个非凸目标，需要梯度下降迭代。作为经典最小二乘回归和神经网络训练之间的中间方法，Herrera 等人[17, 第 2 节] 提出了 RLSM 算法，其中神经网络的内部层权重是随机采样的，仅优化最后一层。这种随机化方法允许保留凸目标，通过经典线性回归方程求解，并可理解为挑选具有表达能力的随机基函数。 以上所有工作都保留了动态规划的反向递推逻辑，在每个 t_k 处构建一个单独的神经网络仿真器。实际上，这些仿真器非常相似，因为相邻两个时间步的停时策略也很相似。这一观察并不新鲜；例如，[20] 和 [3] 都在反向递推过程中利用了这一点，通过重用相同的神经网络对象并逐步更新它。这种热启动方法利用了深度学习的梯度下降范式，并显著加快了训练时间。将这一逻辑更进一步，Guo 等人[16] 提出了一个单一的 Q(s,1) 神经网络，它将时间 t 和位置 x 作为输入，以逼近时空上的继续价值。这种变体提高了预测精度，同时减少了计算时间。为了训练他们的神经网络，[16] 最初将停时时间设为到期日，并在基本的强化学习环境中执行训练-更新循环，直到满足预定义标准为止。其他基于神经网络的方法由 [4]（目标为学习 0/1 停时决策规则）和 [30]（逼近停时集的上确界图）提出。最后，我们提及利用神经网络求解通过费曼-卡茨公式导出的期权定价自由边界偏微分方程的相关工作，例如深度伽辽金方法[31] 和倒向随机微分方程[6,14,35]，它们都专门针对美式期权定价。 从实现方面来看，神经网络的具体架构可能产生显著差异。密集前馈网络已被用于 [19]（一个浅层单隐藏层版本），以及 [17,20,3]。[32] 提出了卷积神经网络，而 [9] 提出了循环神经网络。对于强化学习类型的方法，[10] 应用了定制的双深度 Q 网络（DDQN）、分类分布强化学习和隐式分位数网络，部署了带有动态层和 Dropout 包装器的 LSTM 架构，以捕捉序列数据中的长期依赖性。[13] 采用了一个全连接前馈神经网络来实现一种 Q 学习方法，以恢复最优停时。 我们研究的一个动机是控制 LSMC 中的误差反向传播。为此，我们也提及各种修正的 LSMC 方法[39,2]，它们旨在校正反向迭代步骤中累积的误差。 本文的其余部分组织如下。第 2 节建立了求解最优停时问题的仿真框架。第 3 节介绍了我们新的 CARLOS 算法。在通过经典的 1 维看跌期权和 2 维最大看涨期权进行几次说明后，第 3.3 节展示了针对文献中考虑的一系列美式期权的基准测试结果。第 4 节提供了我们方法的完整方法论，包括输入选择、输出生成和神经网络构建细节。在此过程中，我们通过几个比较静态实验讨论了 CARLOS 的关键调优参数，并为用户提供了指导。第 5 节进行总结。 ## 2 基于动态规划的最优停时 我们采用一个状态空间框架：设 (X_t) 是概率空间 (Ω, P, F) 上的 d 维马尔可夫随机状态过程，取值于 X ⊂ R^d，并适应于流 F := (F_t)_{t∈[0,T]}。在时间 t 的奖励由 h(X_t) 给出，其中 h: X → R 满足 E[ sup_{0≤t≤T} |h(X_t)| ] < ∞。

通过深度强化学习的连续时间最优停止

相似文章

利用局部动态规律实现离线分层强化学习中的可复用技能

从离散到连续：连续环境中神经强化学习的动力学

自动驾驶中基于不确定性感知与时间规制的专家建议强化学习

通过自适应安全约束实现非平稳环境下的安全持续强化学习

探索起点并不足够：Monte Carlo探索起点的反例与修正

提交意见反馈