不确定性下的决策驱动地质导向:一种用于序贯决策优化的统一框架
摘要
提出了一种不确定性感知的地质导向框架,该框架将用于概率地下解释的粒子滤波与用于序贯决策的强化学习相结合,并在工业模拟器上进行了评估。
arXiv:2606.17331v1 公告类型:新
摘要:地质导向需要在不明确的地质构造中导航井轨迹,同时根据钻井过程中获得的间接测量结果顺序更新决策。本文提出了一种不确定性感知的地质导向框架,该框架将用于概率地下解释的粒子滤波与基于价值函数的强化学习紧密结合,用于序贯决策。钻头前方的地质不确定性通过粒子滤波器(PF)显式表示,从而实现基于信念的决策控制,而非确定性轨迹校正。
该框架将 PF 信念更新与基于信念的决策策略相结合,并评估了三种在相同不确定性表示下运行的决策选择:一种可解释的近似动态规划(ADP)方案、一种深度学习基准(Deep Q-learning)以及一种双深度强化学习(Dual DRL)架构,该架构使用目标 Q 网络方案进行稳定训练,并采用双(价值/优势)分解进行 Q 值参数化。除了最终的布置性能外,我们还使用稳定性导向的指标评估策略行为,这些指标量化了随时间的导引平滑度,从而提供关于决策策略如何响应不确定性演化的额外操作洞察。
该框架集成有 API,可在工业地质导向模拟器中进行验证,模拟器具有现实的测量噪声和钻井约束。通过对所有方法使用相同的地质实现、操作限制和奖励定义,实验提供了对整个钻井过程中备选决策策略行为的受控且高保真评估,而不仅仅是根据最终井轨迹评估性能。
查看缓存全文
缓存时间: 2026/06/17 05:37
# 不确定性下的决策驱动地质导向:顺序决策优化的统一框架 来源:https://arxiv.org/abs/2606.17331 查看PDF (https://arxiv.org/pdf/2606.17331) > 摘要:地质导向需要在未知地质构造中导航井眼轨迹,同时根据钻井过程中获取的间接测量值顺序更新决策。本文提出了一种具有不确定性感知能力的地质导向框架,该框架将用于概率性地下解释的粒子滤波与用于顺序决策的基于价值的强化学习紧密集成。通过粒子滤波显式表示钻头前方的地质不确定性,实现基于信念的智能控制而非确定性轨迹修正。该框架将粒子滤波信念更新与基于信念的决策策略相结合,并评估了三种在相同不确定性表示下运行的决策方法:一种可解释的近似动态规划方案、一种深度Q学习基线,以及一种采用目标Q网络方案进行稳定训练、并使用决斗(价值/优势)分解进行Q值参数化的双深度强化学习架构。除了最终井位性能,我们还使用面向稳定性的指标评估策略行为,量化随时间变化的导向平滑度,从而进一步了解决策策略如何随不确定性演化而响应。该框架集成了一个API,可在工业地质导向模拟器中,在真实测量噪声和钻井约束条件下进行验证。通过在所有方法中使用相同的地质实现、操作限制和奖励定义,实验提供了一种受控且高保真的评估方式,考察不同决策策略在整个钻井过程中的行为,而非仅从最终井眼轨迹评估性能。 ## 提交历史 来自:Hibat Errahmen Djecta [查看邮件 (https://arxiv.org/show-email/3b6c1478/2606.17331)] **\[v1\]** 2026年6月15日星期一 22:22:13 UTC (12,968 KB)
相似文章
在地质、需求与定价不确定性下优化锂生产决策:面向多目标决策的POMDP框架
本文提出了一种面向锂生产多目标决策的POMDP框架,处理地质、需求与定价不确定性,以优化矿山开采及提取方法选择。该方法通过信念状态规划动态适应价格机制变化,优于基于人类启发式的方法。
自动驾驶中基于不确定性感知与时间规制的专家建议强化学习
本文提出了一种面向自动驾驶的不确定性感知强化学习框架,通过自适应不确定性阈值和承诺-冷却策略引导的专家建议,提升了安全性和效率。在CARLA模拟器上的实验表明,相较于IQN基线,成功率提高了5%-7%。
统一建模与探索的生成式自动竞价
本文介绍了Guide框架,该框架结合了决策Transformer、Q值引导和逆动力学模块,在数字广告自动出价中平衡探索与安全性,并在公开数据集和模拟拍卖中展示了有效性。
通过不确定性对齐的强化学习探索智能体工具调用决策
本文提出TRUST方法,将不确定性量化融入强化学习奖励设计,以改进LLM智能体的工具调用决策,提升决策质量并保持可靠的不确定性估计。
面向稀疏奖励强化学习的不确定性感知LLM引导策略塑形
提出ULPS,一种将校准的LLM集成到RL训练中的框架,通过不确定性调制的引导和基于A*的符号轨迹,在MiniGrid-UnlockPickup上实现了更高的成功率和样本效率。