标签
本文提出了一种新颖框架,通过整合采样、自动机学习和模型检测,为部分可观察马尔可夫决策过程(POMDPs)合成有限状态控制器。该方法为现有形式化合成工具难以解决的阈值安全问题提供了形式化保证。
本文介绍了 LANTERN,这是一个用于强化学习中多源神经符号迁移的框架,它利用大语言模型生成任务自动机,并结合自适应门控机制来提高样本效率。