不确定性下的决策驱动地质导向:一种用于序贯决策优化的统一框架

arXiv cs.LG 论文

摘要

提出了一种不确定性感知的地质导向框架,该框架将用于概率地下解释的粒子滤波与用于序贯决策的强化学习相结合,并在工业模拟器上进行了评估。

arXiv:2606.17331v1 公告类型:新 摘要:地质导向需要在不明确的地质构造中导航井轨迹,同时根据钻井过程中获得的间接测量结果顺序更新决策。本文提出了一种不确定性感知的地质导向框架,该框架将用于概率地下解释的粒子滤波与基于价值函数的强化学习紧密结合,用于序贯决策。钻头前方的地质不确定性通过粒子滤波器(PF)显式表示,从而实现基于信念的决策控制,而非确定性轨迹校正。 该框架将 PF 信念更新与基于信念的决策策略相结合,并评估了三种在相同不确定性表示下运行的决策选择:一种可解释的近似动态规划(ADP)方案、一种深度学习基准(Deep Q-learning)以及一种双深度强化学习(Dual DRL)架构,该架构使用目标 Q 网络方案进行稳定训练,并采用双(价值/优势)分解进行 Q 值参数化。除了最终的布置性能外,我们还使用稳定性导向的指标评估策略行为,这些指标量化了随时间的导引平滑度,从而提供关于决策策略如何响应不确定性演化的额外操作洞察。 该框架集成有 API,可在工业地质导向模拟器中进行验证,模拟器具有现实的测量噪声和钻井约束。通过对所有方法使用相同的地质实现、操作限制和奖励定义,实验提供了对整个钻井过程中备选决策策略行为的受控且高保真评估,而不仅仅是根据最终井轨迹评估性能。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:37

# 不确定性下的决策驱动地质导向:顺序决策优化的统一框架
来源:https://arxiv.org/abs/2606.17331
查看PDF (https://arxiv.org/pdf/2606.17331)

> 摘要:地质导向需要在未知地质构造中导航井眼轨迹,同时根据钻井过程中获取的间接测量值顺序更新决策。本文提出了一种具有不确定性感知能力的地质导向框架,该框架将用于概率性地下解释的粒子滤波与用于顺序决策的基于价值的强化学习紧密集成。通过粒子滤波显式表示钻头前方的地质不确定性,实现基于信念的智能控制而非确定性轨迹修正。该框架将粒子滤波信念更新与基于信念的决策策略相结合,并评估了三种在相同不确定性表示下运行的决策方法:一种可解释的近似动态规划方案、一种深度Q学习基线,以及一种采用目标Q网络方案进行稳定训练、并使用决斗(价值/优势)分解进行Q值参数化的双深度强化学习架构。除了最终井位性能,我们还使用面向稳定性的指标评估策略行为,量化随时间变化的导向平滑度,从而进一步了解决策策略如何随不确定性演化而响应。该框架集成了一个API,可在工业地质导向模拟器中,在真实测量噪声和钻井约束条件下进行验证。通过在所有方法中使用相同的地质实现、操作限制和奖励定义,实验提供了一种受控且高保真的评估方式,考察不同决策策略在整个钻井过程中的行为,而非仅从最终井眼轨迹评估性能。

## 提交历史

来自:Hibat Errahmen Djecta [查看邮件 (https://arxiv.org/show-email/3b6c1478/2606.17331)] **\[v1\]** 2026年6月15日星期一 22:22:13 UTC (12,968 KB)

相似文章

统一建模与探索的生成式自动竞价

arXiv cs.AI

本文介绍了Guide框架,该框架结合了决策Transformer、Q值引导和逆动力学模块,在数字广告自动出价中平衡探索与安全性,并在公开数据集和模拟拍卖中展示了有效性。