标签
提出了一种不确定性感知的地质导向框架,该框架将用于概率地下解释的粒子滤波与用于序贯决策的强化学习相结合,并在工业模拟器上进行了评估。
本文研究在序贯决策问题中,规划者何时以及如何用真实实验补充预训练模拟器,提出Fisher-SEP以最小化目标策略值的后验方差。