标签
一种基于合约的组合式防护方法,无需集中式运行时控制即可确保多智能体强化学习中的全局安全性,利用局部LTL义务和多臂老虎机优化团队奖励。
提出一种神经符号框架,通过可微自动机表示和基于逻辑的损失函数,将LTLf约束注入基于Transformer的强化学习策略中,在保持竞争性回报的同时提高约束满足度。
NeuroNL2LTL 是一个神经符号框架,它使用带有验证器在环训练的两阶段架构,将自然语言翻译为线性时序逻辑(LTL),从而为安全关键规范提供改进的正确性保证。