面向稀疏奖励强化学习的不确定性感知LLM引导策略塑形

arXiv cs.LG 2026/06/08 04:00 论文

reinforcement-learning llm-guided uncertainty-aware sparse-reward policy-shaping fine-tuning multi-task

摘要

提出ULPS，一种将校准的LLM集成到RL训练中的框架，通过不确定性调制的引导和基于A*的符号轨迹，在MiniGrid-UnlockPickup上实现了更高的成功率和样本效率。

arXiv:2606.06673v1 Announce Type: new 摘要：稀疏奖励和异构任务序列仍然是强化学习（RL）中的持久挑战，常导致收敛缓慢、泛化能力弱以及探索效率低下。我们提出不确定性感知LLM引导策略塑形（ULPS），一种新颖的框架，将校准后的大语言模型（LLM）集成到RL训练循环中，以提供结构化、不确定性调制的行为引导。ULPS采用基于A*的神谕来合成最优符号轨迹，这些轨迹用于微调基于BERT的语言模型。训练过程中，该模型提供动作建议，其影响基于通过蒙特卡洛（MC）dropout估计的认知不确定性进行调节。基于熵的混合机制自适应地平衡LLM引导与学习策略（通过近端策略优化PPO），使智能体能够在保持适应性的同时优先利用可靠先验。我们在MiniGridUnlockPickup基准上评估ULPS，观察到在成功率、奖励效率和样本复杂度上，相对于无引导、未校准和标准RL基线的一致改进。ULPS在微调后执行准确率提升超过9%，需要更少的环境交互，并获得更高的奖励AUC。我们的结果表明，整合符号A*轨迹、预训练语言先验和不确定性感知控制，为稀疏奖励领域中的多任务强化学习提供了一种有原则且有效的方法，并具有扩展到部分可观测和多智能体设置的潜力。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:17

# 不确定性感知的LLM引导策略塑造用于稀疏奖励强化学习 代码: github.com/USD-AI-ResearchLab/uncertainty-aware-llm-rl
来源: https://arxiv.org/html/2606.06673
Ujjwal Bhatta¹, Utsabi Dangol¹, Sumaly Bajracharya¹, Rodrigue Rizk, KC Santosh

###### 摘要

稀疏奖励和异构任务序列仍然是强化学习（RL）中的持续挑战，常常导致收敛缓慢、泛化能力弱以及探索效率低下。我们提出不确定性感知的LLM引导策略塑造（ULPS），这是一种新颖的框架，它将经过校准的大型语言模型（LLM）集成到RL训练循环中，以提供结构化、不确定性调制的行为指导。ULPS使用基于A\*的预言机来合成最优符号轨迹，用于微调基于BERT的语言模型。在训练期间，该模型提供动作建议，其影响取决于通过蒙特卡洛（MC）Dropout估计的认知不确定性。基于熵的混合机制自适应地平衡LLM指导和所学策略（通过近端策略优化PPO），使智能体能够优先考虑可靠先验，同时保持适应性。我们在MiniGrid-UnlockPickup基准上评估ULPS，并观察到在成功率、奖励效率和样本复杂度上相较于无引导、未校准和标准RL基线的一致改进。ULPS在微调后执行准确率提升超过9%，需要更少的环境交互，并产生更高的奖励AUC。我们的结果表明，整合符号A\*轨迹、预训练语言先验和不确定性感知控制，为稀疏奖励领域中的多任务强化学习提供了一种有原则且有效的方法，并且具有扩展到部分可观察和多智能体设置的潜力。

## I 引言

尽管强化学习在游戏、机器人和导航等序列决策任务中取得了进展[12, 17, 9]，但稀疏奖励和多样化的任务序列仍然是主要挑战，限制了样本效率和泛化能力。在稀疏奖励设置中，智能体只有在执行一系列正确动作后才会收到反馈，这使得探索效率低下，并常常导致依赖随机探索策略，需要数千个回合才能发现成功的轨迹[8, 13]。为了解决这些挑战，先前的工作探索了将外部知识引入稀疏奖励环境的RL过程，依赖人类专业知识来引导智能体。例如，可以训练智能体模仿符合人类判断偏好的动作，这能加速复杂任务的学习[4]。这取得了相当大的成功，但在跨不同环境收集人类反馈的可扩展性方面面临实际限制[2]。

自然语言处理的最新进展表明，大型语言模型能够推理多步信息[14]，从文本或视觉输入生成动作以引导RL智能体，并将复杂任务分解为上下文感知的子目标和中层计划，这些计划可以转化为可执行的动作[5, 10, 11]。然而，直接将LLM整合到决策或学习系统中存在困难[1]。简单地将语言指导注入RL常常导致对不确定建议的过度依赖、稳定性下降或偏向次优启发式。LLM在产生不准确或幻觉输出时表现出高度自信[18]。与人类专家相比，语言模型容易过度自信，并可能做出不可靠的建议，从而影响学习[19]。因此，估计模型的不确定性并判断何时信任其判断至关重要。一个关键挑战是校准基于LLM的先验，并根据不确定性调节其影响。Shoaeinaeini和Harrison[16]通过设计一个由LLM引导的校准RL系统，为这个问题引入了一个更结构化的解决方案。他们的方法使用MC Dropout[7]以及基于熵的策略塑造，来调整智能体在多任务设置中依赖LLM建议的程度。

在此基础上，我们提出一个统一框架——不确定性感知的LLM引导策略塑造（ULPS），该框架使用基于A\*的预言机来微调LLM，然后通过不确定性感知机制将LLM判断整合到基于PPO的RL训练循环中。受[16]启发，我们扩展了他们的环境和提示方法，并改进了策略组合和不确定性整合，以处理更大规模的任务。我们的贡献有两点：a) 一个将LLM指导与RL策略相结合的框架，使用不确定性感知的熵加权混合进行自适应策略塑造；b) 一种可扩展的自监督方法，使用A\*生成的轨迹来微调BERT，用于多任务序列决策。我们展示了其有效性，准确率达到99.17%，相较于先前模型提升了9%，在稀疏奖励环境中实现了更高的奖励效率和更低的复杂度。

参见图注图 1: 提出的ULPS框架概述。基于A\*的预言机生成最优轨迹用于BERT微调。训练期间，环境状态S被编码并输入到校准后的LLM中。MC Dropout估计不确定性，产生 P_LLM 和 H_norm。相同的BERT特征由PPO智能体处理以生成 P_agent。这些分布通过基于熵的塑造进行融合。环境执行动作A，返回奖励R和下一状态S'，并将转移元组 (S, A, R, S') 存储用于PPO更新。
## II 方法论

### II-A 问题形式化

我们考虑一个具有稀疏奖励的回合制马尔可夫决策过程MDP M={S, A, P, R, γ}，其中智能体必须在MiniGrid-UnlockPickup[3]中解决多个任务：

- • S: 状态空间，表示智能体的位置、方向和环境配置；
- • A: 离散动作空间，A = {左转, 右转, 前进, 拾取, 切换};
- • P: 定义环境的转移概率函数；
- • R(S, A): 提供任务完成稀疏反馈的奖励函数；以及
- • γ: 未来奖励的折扣因子。

我们的环境有一个子任务序列 T = {T1, T2, T3}：导航并拾取钥匙，导航并解锁门，最后导航到目标。智能体在成功完成每个子任务时获得稀疏奖励，这使得传统的RL探索效率低下，因为奖励R在特定转移 (S, A, R, S') 处非零，其中任务目标已实现。S' 是智能体在状态S执行动作A后到达的新状态。目标是学习一个策略 P_final(a|s)，以最大化期望折扣回报。ULPS 用LLM导出的先验 P_LLM(a|s) 来增强PPO。

### II-B 系统架构

我们的模型使用一个带有PPO智能体的校准LLM-based RL系统。所提出的架构如图1所示。智能体通过结合自身策略和语言模型的指导来学习，并根据模型的置信度进行调制。在每个回合开始时，环境状态S被转换为文本提示，经过微调的BERT模型使用MC Dropout被前向传播T次。这产生一个可能动作上的分布 P_LLM，以及一个相关的熵H，用于捕捉模型的不确定性。然后我们将熵归一化得到 H_norm ∈ [0,1]，它决定了分配给LLM相对于PPO策略的权重。PPO智能体的策略 P_agent 通过将BERT提取的特征传递通过一个小型actor-critic网络获得。最终策略是一个凸组合：

P_final = (1 - H_norm) · P_LLM + H_norm · P_agent. (1)
然后采样一个动作 A ∼ P_final 并在环境中执行。得到的经验元组 (S, A, R, S') 被存储在PPO缓冲区中用于后续更新。随着时间的推移，PPO智能体使用收集的这些轨迹进行更新。这种自适应训练过程使智能体能够利用自身学习和嵌入在语言模型中的结构化先验。算法1总结了整个过程。

算法 1 使用不确定性感知LLM引导的训练
输入：微调后的BERT模型 B, PPO智能体, 环境 E, 回合数 N, 前向传播次数 T=8, Dropout率 p=0.1
输出：训练好的PPO策略 P_agent, 用于策略更新的经验缓冲区
1: 对于每个回合 e=1 到 N 执行：
2:   初始化 S ← S0
3:   当回合未终止时执行：
4:       τ ← φ(S)   # 状态到文本提示
5:       P_LLM ← (1/T) Σ_{k=1}^{T} B^{(k)}(τ; p)   # T次随机前向传播
6:       H ← - Σ_{a∈A} P_LLM(a) log P_LLM(a)
7:       H_norm ← (H - H_min) / (H_max - H_min)
8:       P_final ← (1 - H_norm) · P_LLM + H_norm · P_agent
9:       采样 A ∼ P_final; 执行动作得到 R, S' ← E(S, A)
10:      缓冲区 ← 缓冲区 ∪ {(S, A, R, S')}; S ← S'
11:   结束当
12: 结束对于
13: 使用 GAE λ=0.95, 剪辑 ε=0.2 更新PPO

### II-C 使用A\*生成最优轨迹

我们使用在网格世界转移图上的A\*规划器来计算最优动作序列。A\*寻路算法计算最短可行路径，同时避开墙壁和锁着的门等障碍物。我们使用曼哈顿距离启发函数，定义为 h(pos, target) = |pos_x - target_x| + |pos_y - target_y|。每条轨迹由结构化状态表示（语义地图和相对位置）和符号动作（例如，左转，前进，拾取）组成。

### II-D 微调基于BERT的LLM

我们将状态表示转换为文本提示（例如，编码的网格布局），并使用熵 H_norm 训练一个基于BERT的下一个动作预测器，以获得混合权重，最终策略 P_final 如算法1所述通过结合LLM和PPO策略确定。

## III 实验、结果与讨论

### III-A 实现细节

该架构整合了一个校准后的LLM，使用bert-base-uncased嵌入在21,500个样本上微调，输入长度最大100个token，Dropout值为0.1，并使用A\*寻路生成的数据，配合一个PPO智能体。PPO智能体使用actor-critic网络，采用AdamW优化器，学习率5e-5，批量大小16，训练5个epoch。智能体训练1,000个回合，每个回合最多50步。策略塑造机制根据当前状态的归一化熵结合LLM和PPO智能体的概率分布。熵系数设为0.01，值损失系数为0.5，GAE-lambda参数为0.95。这些超参数基于先前研究的见解并通过初步实验验证。虽然[16]使用了4×8配置，但我们采用8×4网格用于LLM微调阶段，直到达到至少90%的准确率，然后在4×4和8×8环境中用校准引导进行1,000个回合的RL训练阶段。

每50个回合后，使用剪辑策略梯度、值损失和熵正则化进行PPO更新。这展示了不确定性校准的LLM如何引导RL智能体，随着训练进行，从LLM引导平滑过渡到学习策略控制。

参见图注图 2: 训练性能比较，显示平均奖励。我们的模型显示出比其他基线显著更高且更稳定的奖励轨迹。传统的RL方法如Q-Learning、DQN和无引导RL学习较慢且最终奖励较低。未校准的LLM改善了性能，但仍不如校准版本有效。
参见图注图 3: 基于奖励、成功率、步数和AUC的模型比较。我们校准后的模型在所有指标上得分最高，表明性能优越。未校准的LLM优于传统方法，但由于缺乏不确定性感知而达不到校准模型的水平。
### III-B 环境与奖励结构

我们在MiniGrid-UnlockPickup[3]上评估我们提出的ULPS框架，这是一个用于序列多任务RL的稀疏奖励基准。LLM预言机在8×4环境中训练，而RL则在4×4和8×8设置[6]上评估。UnlockPickup环境包括拾取钥匙、解锁门和到达目标。观测空间包括7×7视图，动作空间A_t是离散的，有五个动作：0（左转）、1（右转）、2（前进）、3（拾取）和5（切换）。钥匙、门和目标分别位于 (w-2, 1)、(w-2, h-2) 和 (w-1, h-2)，其中w和h表示环境的宽度和高度。奖励基于任务表现。奖励函数分配：拾取钥匙得0.5，开门得0.5，到达目标得0.2，无效动作惩罚-0.02。到达目标时额外奖励为：额外奖励 = 1 - (步数/最大步数)。奖励公式为：总奖励 = 钥匙拾取 + 开门 + 到达目标 + 额外奖励 + 累积惩罚。

环境在到达目标或超过最大步数（50）时结束。此设置显示了平衡的挑战。

面向稀疏奖励强化学习的不确定性感知LLM引导策略塑形

相似文章

从动作引导中学习智能体策略

当LLM奖励设计失败：稀疏结构化强化学习的诊断驱动细化

重新思考大语言模型推理中的强化学习：关键在于稀疏策略选择，而非能力学习

学习探索：通过探索感知策略优化扩展代理推理

提示引导的多样化策略优化用于LLM推理

提交意见反馈