LANTERN:一种结合大语言模型增强、基于经验门控推理网络的神经符号迁移方法

arXiv cs.AI 论文

摘要

本文介绍了 LANTERN,这是一个用于强化学习中多源神经符号迁移的框架,它利用大语言模型生成任务自动机,并结合自适应门控机制来提高样本效率。

arXiv:2605.05478v1 发布类型:新文章 摘要:强化学习(RL)中的迁移学习旨在通过利用相关源任务的知识来加速新任务的学习。然而,现有的神经符号迁移方法通常依赖于人工指定的任务自动机,假设仅存在单一源任务,并且使用固定的知识整合机制,无法适应源任务相关性的变化。我们提出了 LANTERN,这是一个用于多源神经符号迁移的统一框架,通过以下三个组件解决了上述局限性:(i)使用大语言模型从自然语言任务描述中生成的确定性有限自动机,(ii)基于语义嵌入、根据跨任务相似度对多个源策略进行加权的聚合,以及(iii)基于时序差分误差和语义不确定性的自适应教师-学生门控机制。在涵盖资源管理、导航和控制等多个领域,LANTERN 相较于现有基线方法在样本效率上实现了 40%-60% 的提升,同时对源任务对齐不佳的情况具有鲁棒性。这些结果表明,多源、自适应加权的神经符号迁移能够提高符号强化学习场景下的可扩展性和鲁棒性。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:18

# LANTERN: 基于经验门控推理网络的LLM增强神经符号迁移
来源: https://arxiv.org/html/2605.05478
作者: Mahyar Alinejad1, Yue Wang1,2, Amrit Singh Bedi2, George Atia1,2
邮箱: [email protected], [email protected], [email protected], [email protected]
地址: 1. 美国佛罗里达州奥兰多,中佛罗里达大学电气与计算机工程系
2. 美国佛罗里达州奥兰多,中佛罗里达大学计算机系

###### 摘要

强化学习(RL)中的迁移学习旨在通过利用相关源任务的知识来加速新任务的学习。然而,现有的神经符号迁移方法通常依赖于手动指定的任务自动机,假设仅存在单一源任务,并使用无法适应源任务相关性变化的固定知识整合机制。我们提出了 LANTERN,这是一个统一的多源神经符号迁移框架,通过以下三个组成部分解决了上述局限性:(i) 利用大语言模型从自然语言任务描述中生成确定性有限自动机;(ii) 基于语义嵌入对多个源策略进行聚合,并根据跨任务相似度进行加权;(iii) 基于时序差分误差和语义不确定性的自适应师生门控机制。在涵盖资源管理、导航和控制的多个领域中,LANTERN 相比现有基线方法,样本效率提高了 40–60%,同时对不对齐的源任务保持了鲁棒性。这些结果表明,在多源神经符号迁移中,通过自适应加权可以显著提高符号 RL 设置下的可扩展性和鲁棒性。

###### 关键词:

强化学习,迁移学习,神经符号人工智能,大语言模型,自动机学习

## 1 引言

强化学习(RL)在游戏 [Mnih2015HumanLevel;Silver2016Go]、机器人 [Kober2013Reinforcement;levine2016end] 和自主系统 [Kiran2021Deep] 等领域取得了强大的实证性能。然而,有效的策略学习通常需要大量的交互,这在数据收集成本高昂或不安全时限制了其适用性 [dulac2019challenges]。迁移学习通过利用相关任务的知识缓解了这一问题 [Taylor2009Transfer;zhu2023transfer],但现有方法在面对自然上非马尔可夫的、结构化的长视距目标时仍然面临挑战。

神经符号 RL 将符号任务表示(如确定性有限自动机 (DFAs) 或奖励机器 [ToroIcarte2018UsingRL;Icarte2022Reward])集成到学习过程中。通过通过积 MDP 构造编码时间结构 [Bacchus1997NMRDP],这些方法提高了复杂任务的样本效率。尽管取得了这些进展,但仍存在几个局限性:

1. **手动指定**:大多数方法假设由专家提供的 DFAs 或时序逻辑公式 [Littman2017Environment;Camacho2019LTL;Hahn2019Omega]。语法推理方法可以从演示中恢复自动机 [Angluin1987Learning;Oncina1992;Alinejad2024Hybrid;Alinejad2026Dynamic],但它们需要结构化的轨迹数据,并且在稀疏或探索性 RL 设置中难以应用。
2. **单源迁移**:自动机蒸馏通过 DFA 转移传递符号指导 [Singireddy2023AutomatonDistillation;Alinejad2025NEUS],而策略蒸馏提供动作级别的知识 [Rusu2015PolicyDistillation]。CADENT 使用基于经验的门控结合两者 [Alinejad2026Hybrid]。然而,这些方法依赖于单一源任务,当源-目标对齐变化时可能会限制有效性。
3. **固定的整合机制**:现有方法通常采用预定的加权方案(例如,指数衰减 [Singireddy2023AutomatonDistillation])或静态超参数,当源相关性随状态或时间变化时,限制了其适应性。

**关键洞察与技术新颖性**。我们在这样一个环境中考虑神经符号迁移:多个源任务的目标可能与目标任务部分相关但各不相同。在这种环境下,迁移不能依赖于直接重用单一源策略或自动机;相反,它需要在异构任务之间进行语义对齐和结构化知识的聚合。

为了解决这一环境,我们引入了 LANTERN(LLM-Augmented Neurosymbolic Transfer with Experience-gated Reasoning Networks,基于经验门控推理网络的 LLM 增强神经符号迁移)。LANTERN 集成了三个组件。首先,使用大语言模型(LLMs)从自然语言任务描述中生成 DFAs,消除了手动指定的需要。其次,我们在自动机状态描述上构建共享嵌入空间,使得能够聚合具有异构目标的多个源任务的部分知识。第三,我们引入了一种双波动性门控机制,将语义对齐(通过嵌入相似度测量)与基于经验的可信度(通过 TD 误差测量)相结合,允许在学习过程中自适应地调整教师的影响权重。

**贡献**。我们的贡献有三点:

1. 我们在源任务可能具有异构目标的环境中 formulation 了多源神经符号迁移,这需要语义聚合而不是直接重用单一源策略或自动机。
2. 我们开发了 LANTERN,它在单一的神经符号迁移架构中集成了基于 LLM 的自动机生成、语义多源聚合和自适应信任门控。
3. 在不同的领域中,我们证明了相比单源和静态整合基线,样本效率提高了 40–60%,同时保持了对不对齐源任务的鲁棒性。

### 1.1 相关工作

**RL 中的迁移学习**。经典的迁移方法包括值函数重用 [Taylor2007Cross]、策略蒸馏 [Rusu2015PolicyDistillation;Czarnecki2019Distilling] 和后继特征 [Barreto2017Successo;Barreto2020Fast]。元学习 [Finn2017Model;rakelly2019efficient] 和多任务学习 [Parisotto2015ActorMimic;teh2017distral] 在相关任务间共享表示。这些方法通常假设马尔可夫奖励结构,并不显式建模时序逻辑或基于自动机的任务分解。

**神经符号 RL**。为了解决非马尔可夫目标,奖励机器 [ToroIcarte2018UsingRL;Icarte2022Reward] 和时序逻辑规范 [Littman2017Environment;Camacho2019LTL;Hahn2019Omega] 通过积 MDP 构造编码结构化的任务进展。扩展研究将自动机与深度 RL 集成 [Hasanbeig2020Deep;DeGiacomo2019Shielding] 或从演示中推断规范 [VazquezChanlatte2018LearningSpecs]。然而,这些工作主要关注单任务学习,而不是跨异构任务的迁移。

**基于自动机的迁移**。最近的工作利用自动机结构进行迁移。自动机蒸馏 [Singireddy2023AutomatonDistillation] 通过 DFA 引导的 Q 值聚合传递高层任务分解。双向迁移框架 [Alinejad2025NEUS] 实现相互知识交换,而 CADENT [Alinejad2026Hybrid] 结合策略自动机指导与战术策略蒸馏,使用基于经验的门控。ARM-FM [Creus2024ARMFM] 使用 LLM 生成的奖励机器进行迁移。然而,这些方法依赖于单源设置和固定或仅基于经验的整合机制。

**RL 中的 LLMs**。LLMs 已被用于提供规划指导 [Jiang2019Language]、程序化策略表示 [Verma2018Programmatically;andreasmodular] 和零样本泛化信号 [Oh2017Zero]。与主要使用语言进行提示或奖励塑造的方法不同,LANTERN 生成与积 MDP 构造兼容的形式化 DFAs,并将其集成到多源神经符号迁移框架中。

本文的其余部分结构如下:第 2 节 (https://arxiv.org/html/2605.05478#S2) 提供了积 MDP 和迁移学习所需的背景知识。第 3 节 (https://arxiv.org/html/2605.05478#S3) 详细介绍了 LANTERN 框架。第 4 节 (https://arxiv.org/html/2605.05478#S4) 报告了四个领域的实验结果。第 5 节 (https://arxiv.org/html/2605.05478#S5) 总结并展望未来方向。

## 2 背景

### 2.1 马尔可夫决策过程和 Q-学习

马尔可夫决策过程 (MDP) [SuttonBarto] 是一个元组 $\mathcal{M}=\langle\mathcal{S},\mathcal{A},\mathcal{T},\mathcal{R},\gamma\rangle$,其中 $\mathcal{S}$ 是状态空间,$\mathcal{A}$ 是动作空间,$\mathcal{T}:\mathcal{S}\times\mathcal{A}\times\mathcal{S}\to[0,1]$ 是转移函数,$\mathcal{R}:\mathcal{S}\times\mathcal{A}\to\mathbb{R}$ 是奖励函数,且 $\gamma\in[0,1)$ 是折扣因子。策略 $\pi:\mathcal{S}\to\Delta(\mathcal{A})$ 将状态映射到动作分布,其中 $\Delta(\mathcal{A})$ 是 $\mathcal{A}$ 上的概率单纯形。

目标是找到 $\pi^*=\arg\max_{\pi}\mathbb{E}_{\pi}[\sum_{t=0}^{\infty}\gamma^t\mathcal{R}(s_t,a_t)\mid s_0]$。最优动作-值函数 $Q^*(s,a)=\max_{\pi}Q^{\pi}(s,a)$ 满足:

$$
Q^*(s,a)=\mathbb{E}_{s'}\left[\mathcal{R}(s,a)+\gamma\max_{a'}Q^*(s',a')\right]. \quad (1)
$$

Q-学习 [Watkins1992QLearning] 通过以下方式迭代估计 $Q^*$:

$$
Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha\left[\mathcal{R}(s_t,a_t)+\gamma\max_{a'}Q(s_{t+1},a')-Q(s_t,a_t)\right], \quad (2)
$$

其中 $\alpha\in(0,1]$ 是学习率。

### 2.2 非马尔可夫目标的积 MDP

许多任务涉及依赖于状态历史的非马尔可夫目标 [Bacchus1997NMRDP]。确定性有限自动机 (DFA) $\mathcal{D}=\langle\Omega,\Sigma,\delta,\omega_0,F\rangle$ 指定了此类任务,其中 $\Omega$ 是自动机状态集,$\Sigma$ 是标签集,$\delta:\Omega\times\Sigma\to\Omega$ 是转移函数,$\omega_0$ 是初始状态,且 $F\subseteq\Omega$ 是接受状态。标记函数 $L:\mathcal{S}\to\Sigma$ 将 MDP 状态映射到标签。

积 MDP $\mathcal{M}\times\mathcal{D}=\langle\mathcal{S}\times\Omega,\mathcal{A},\mathcal{T}',\mathcal{R}',\gamma\rangle$ 具有状态空间 $\mathcal{S}\times\Omega$,其中 $(s,\omega)$ 表示智能体处于 MDP 状态 $s$ 且自动机处于状态 $\omega$。转移函数为 $\mathcal{T}'((s,\omega),a,(s',\omega'))=\mathcal{T}(s,a,s')$ 如果 $\omega'=\delta(\omega,L(s'))$,否则为 0。奖励函数 $\mathcal{R}'((s,\omega),a)$ 基于自动机进展设计,通常在达到接受状态 ($\omega'\in F$) 时提供稀疏奖励,或在发生自动机转移 ($\omega\neq\omega'$) 时提供增量奖励。这通过跟踪通过 $\omega$ 的任务进展,将非马尔可夫目标转化为标准 MDP 学习 [ToroIcarte2018UsingRL;Icarte2022Reward]。

### 2.3 迁移学习与神经符号方法

迁移学习通过利用源知识加速目标任务学习 [Taylor2009Transfer]。策略蒸馏 [Rusu2015PolicyDistillation] 训练学生 $\pi^{\text{student}}$ 模仿教师 $\pi^{\text{teacher}}$,通过最小化 $D_{\text{KL}}(\pi^{\text{teacher}}(\cdot|s)\|\pi^{\text{student}}(\cdot|s))$。

自动机蒸馏 [Singireddy2023AutomatonDistillation;Alinejad2025NEUS] 通过 DFA 转移传递策略知识。给定在源积 MDP 上学到的教师 Q 函数 $Q^{\text{teacher}}$,该方法计算每个自动机转移 $(\omega,\omega')$ 的聚合 Q 值:

$$
Q_{\text{AD}}(\omega,\omega')=\frac{1}{|\mathcal{S}_{\omega\to\omega'}|}\sum_{(s,a)\in\mathcal{S}_{\omega\to\omega'}}Q^{\text{teacher}}((s,\omega),a), \quad (3)
$$

其中 $\mathcal{S}_{\omega\to\omega'}=\{(s,a):\delta(\omega,L(s'))=\omega',s'\sim\mathcal{T}(s,a,\cdot)\}$ 是触发从 $\omega$ 到 $\omega'$ 的自动机转移的状态-动作对集合,且 $Q^{\text{teacher}}((s,\omega),a)$ 是教师在积 MDP 上学到的动作-值函数。在目标任务学习期间,当发生自动机转移时,学生会收到额外的奖励 $\lambda_{\text{AD}}\cdot Q_{\text{AD}}(\omega,\omega')$。

CADENT 结合策略指导和战术指导,使用基于经验的门控 [Alinejad2026Hybrid]。它跟踪每个状态-动作对的时序差分 (TD) 误差波动性(学习不稳定性的度量):

$$
V_t(s,a)\leftarrow(1-\eta)V_{t-1}(s,a)+\eta|\delta_t(s,a)|,
$$

其中 $\delta_t(s,a)=r_t+\gamma\max_{a'}Q_t(s',a')-Q_t(s,a)$ 是时间 $t$ 的 TD 误差,且 $\eta\in(0,1)$ 是平滑参数。衡量学生对自身估计信心的信任门控计算为:

$$
\tau(s,a)=\sigma(-k(V(s,a)-\theta)),
$$

其中 $\sigma(x)=1/(1+e^{-x})$ 是 sigmoid 函数,$k>0$ 控制门控尖锐度,且 $\theta\in(0,1)$ 是阈值。Q 更新平衡学生学习和教师指导:

$$
\Delta Q(s,a)=\alpha\left[\tau(s,a)\,\delta_t(s,a)+(1-\tau(s,a))\,G_{\text{teacher}}(s,a)\right], \quad (4)
$$

其中

$$
G_{\text{teacher}}(s,a)=\lambda_{\text{AD}}r_{\text{AD}}(\omega,\omega')+\lambda_{\text{PD}}\big(\pi^{\text{teacher}}(a|s)-\pi^{\text{student}}(a|s)\big),
$$

结合了策略指导(自动机转移 $\omega\to\omega'$ 的内在奖励 $r_{\text{AD}}$)和战术指导(策略差异),并由 $\lambda_{\text{AD}},\lambda_{\text{PD}}\geq 0$ 加权。

ARM-FM [Creus2024ARMFM] 通过 LLMs 生成奖励机器并进行单源嵌入迁移。然而,所有现有方法都使用单源,并且在不对齐的情况下缺乏优雅退化。

## 3 公式化与提出的 LANTERN 框架

### 3.1 问题公式化

考虑 $K$ 个源任务,每个任务建模为积 MDP $\mathcal{M}_k^{\text{src}}\times\mathcal{D}_k^{\text{src}}$,其中自动机 $\mathcal{D}_k^{\text{src}}=\langle\Omega_k^{\text{src}},\Sigma_k,\delta_k^{\text{src}},\omega_{0,k}^{\text{src}},F_k^{\text{src}}\rangle$ 编码...

相似文章

ANNEAL: 通过受控符号补丁学习适配LLM代理

arXiv cs.AI

介绍了ANNEAL,一种神经符号代理,能将重复性故障转化为过程知识图谱的受控符号编辑,无需修改模型权重,在测试环境中实现持久的结构修复并消除重复性故障。

自适应潜在智能体推理

arXiv cs.CL

本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。