当LLM奖励设计失败:稀疏结构化强化学习的诊断驱动细化

arXiv cs.LG 论文

摘要

本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题,识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化,与一次性生成相比,取得了显著的成功率提升(例如,DoorKey-8×8从2.3%提升至97.6%)。

arXiv:2605.28918v1 公告类型:新 摘要:对于具有语义奖励函数接口的稀疏结构化强化学习任务,LLM生成的奖励塑形更适合作为调试问题而非一次性生成。我们使用MiniGrid作为核心评估环境,MuJoCo作为边界压力测试,研究了基于PPO的智能体。我们的审查发现了两种主要的一次性失败模式——奖励泛滥和语义/API误解——以及一种较罕见的弱塑形情况。我们提出诊断驱动的迭代细化,其中训练诊断和失败模式分类指导目标奖励函数修正。细化将DoorKey-8x8的成功率从2.3%提升至97.6%,将KeyCorridor从31.2%提升至86.7%,且种子间方差较大。对照组显示这些提升并非来自重试或额外训练:仅基于指标的重新提示导致大幅下降,而静态词汇对照组则弥补了大部分差距(87.6%;70.7%),表明分类提示是主要机制,而动态标签仅提供部分孤立的增量证据。预算匹配和Best-of-3比较分离了细化与选择及训练时间效应。组件移除测试、敏感性分析以及针对作者标签的审查为该调试解释提供了汇聚证据,同时揭示了校准限制。连续控制结果显示了边界:基于成功的诊断可能在密集奖励的移动任务中失灵,而回报趋势反馈移除了一种假阳性机制,但未带来稳健性提升。低调用协议是与基于种群的奖励搜索的成本对比,而非基准比较。在四个交叉方差设计环境中,点估计表明当LLM奖励函数的方差占主导时,提升幅度较大,但自助法置信区间较宽。该方法局限于在PPO下具有可靠接口的稀疏结构化任务;event_text等字段可能有所帮助、造成损害或保持中性。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:13

# 稀疏结构化强化学习的诊断驱动优化 Source: https://arxiv.org/html/2605.28918
## 当LLM奖励设计失败时:稀疏结构化强化学习的诊断驱动优化

###### 摘要

对于具有语义奖励函数接口的稀疏结构化强化学习任务,将LLM生成的奖励塑造视为一个调试问题,而非纯粹的一次性生成问题,更为恰当。我们研究了使用PPO训练的智能体,以MiniGrid作为核心稀疏结构化评估环境,并将MuJoCo的到达/移动任务作为边界压力测试。我们的审计发现两种主要的一次性失败模式——奖励泛滥和语义/API误解——以及一种较为罕见、标记可靠性较低的弱塑造情况。我们提出了诊断驱动的迭代优化方法,利用训练诊断和失败模式分类法指导针对性的奖励函数修正。在具有可诊断奖励失败的稀疏结构化任务上,优化使DoorKey-8×8的成功率从无塑造时的2.3%提升至97.6%,KeyCorridor从一次性生成的31.2%提升至86.7%,但存在较高的种子间方差。控制实验表明,这些收益不能仅归因于简单的重试或额外训练:仅基于指标的重提示会导致大幅下降(DoorKey-8×8:97.6%→68.6%;KeyCorridor:86.7%→11.5%),而静态词汇控制则能恢复大部分差距(DoorKey-8×8:87.6%;KeyCorridor:70.7%),这表明分类法提示本身是一个重要机制,而动态触发标签仅提供部分孤立的增量证据。预算匹配和Best-of-3比较有助于将优化与选择和训练时间效应区分开来。组件移除压力测试、敏感性分析以及与作者标签的审计对比,为调试解释提供了汇聚证据,同时揭示了校准限制。连续控制结果暴露了边界:基于成功的诊断在密集奖励移动任务中可能误判,而回报趋势反馈移除了一个误报机制,但未能产生稳健的移动收益。低调用协议是与基于种群的奖励搜索在协议成本上的对比,而非共享基准的性能比较。在四个我们进行了完全交叉方差设计的环境中,方差点估计与以下结论一致:当LLM奖励函数方差占主导时,奖励修正带来的增益更大,但bootstrap区间较宽,限制了确切份额的断言。该方法的适用范围有意限定于在PPO训练下具有可靠结构化接口的稀疏结构化任务;更丰富的语义字段(如event_text)可能有助于、有害于或中性影响,具体取决于与任务结构的对齐程度。

## 1 引言

在稀疏奖励环境中的强化学习仍然是一个基础性挑战。在多步骤任务中(例如,找到钥匙、开门、到达目标),随机探索的智能体可能永远无法在可行的训练预算内遇到终端奖励信号。奖励塑造(Ng et al., 1999)通过提供中间反馈来解决这个问题,但设计有效的塑造函数需要大量的领域知识和迭代手动调参。近期工作探索了将LLM作为奖励函数生成器:Eureka通过GPU并行仿真进行基于进化的奖励代码优化,而Text2Reward则从语言描述和紧凑环境表示生成密集奖励代码(Ma et al., 2024; Xie et al., 2024)。这些系统取得了令人印象深刻的结果,但它们对*为什么*LLM生成的奖励会失败提供的洞察有限——主要将奖励生成视为一个性能驱动的搜索或优化问题,而非分析失败的结构。

我们认为,对于稀疏结构化任务,LLM奖励设计更应被理解为*调试*问题而非生成问题。一次性LLM生成以重复的、可识别的方式失败;轻量级诊断通常能在所研究的稀疏结构化设置中廉价地检测并修复这些失败;当诊断与任务的评估信号不对齐时,该方法会可预测地失效。这种重新框架化引出了一个实用的方法——诊断驱动的迭代优化——它在每次奖励设计运行中使用1-4次LLM调用(跨种子重复以进行评估)和CPU训练,无需基于种群的搜索,从而优于一次性生成和非诊断的重提示。这是协议层面的效率比较,而非与共享基准上基于进化的奖励搜索系统的直接性能比较。

我们的主要贡献是一个诊断驱动的框架,用于识别和修复LLM生成的奖励塑造中的系统性失败模式,并辅以针对性实验来测试框架的核心假设。我们提供三个支持性发现:
1. 结构化奖励接口的失败分类法:提示控制表明,富含分类法的反馈在功能上很重要,但静态分类法词汇也解释了改进的相当一部分,因此不应将自动触发标签视为唯一的因果机制。该分类法本身基于审计,其中奖励泛滥和语义/API误解是两种主要的失败模式,而弱或可忽略的塑造则作为较罕见且标记可靠性较低的情况出现。在主导模式子集上,LLM自动标签器与作者标签的精确率达到94%(32/34预测的主导标签;所有类别的总体准确率为71.4%)。
2. 基于方差的证据,说明优化何时有帮助:在代表性的稀疏任务中,LLM生成方差具有最清晰的主导点估计(DoorKey-8×8:LLM标准差47.5%,RL标准差0.3%;交叉LLM份额96%,bootstrap区间宽[66,100]%),因此诊断优化在此场景中最有用;在代表性的连续控制分解中,残差和RL训练方差具有更大的点估计,限制了奖励函数修正的收益。
3. 领域边界压力测试:基于成功的诊断在密集奖励移动任务上产生误报,系统性降低反馈循环。我们提供根本原因分析,并评估一种回报趋势诊断适应的效果,既展示了框架失效的位置,也展示了如何移除一个特定的失败机制。该方法在具有可靠语义状态字段和暴露子目标结构的稀疏结构化任务上最强,所有实验均使用PPO训练的策略。更丰富的自然语言事件描述并非一致有利:接口消融表明,移除event_text对DoorKey-8×8是中性,并在KeyCorridor的一次重新运行中有所改善。我们明确描述了这一适用范围:这尚不是对原始像素奖励设计、任意机器人任务或算法无关的奖励函数有效性的声明,密集奖励设置需要不同的诊断(第11节)。

路线图和证据状态。表2提供了主要的10种子MiniGrid和到达结果;第8节通过较低种子的压力测试和提示控制来检验诊断故事;第9.4–9.7节报告了边界、预算、方差和选择分析。核心正面声明是关于具有可诊断奖励函数失败的稀疏结构化PPO任务。MuJoCo移动、固定系数的RND、模型敏感性和协议成本比较作为背景和边界证据,而非广泛的优越性声明。

## 2 背景

### 2.1 奖励塑造

基于势能的奖励塑造(Ng et al., 1999)提供了一个原则性框架,用于在不改变最优策略的情况下添加中间奖励。在实践中,大多数奖励塑造使用与任务特定子目标相关的启发式奖励(例如,拾取钥匙时+0.2)。虽然有效,但这些启发式方法需要领域知识和手动调参。

### 2.2 RL中的LLM代码生成

Eureka(Ma et al., 2024)展示了LLM可以生成连续控制任务的奖励函数,通过GPU并行仿真(IsaacGym)对数百个候选进行进化搜索。Text2Reward(Xie et al., 2024)从语言任务描述和紧凑环境表示生成可执行的密集奖励代码。我们的工作采用互补的诊断驱动方法:不是广泛搜索,而是分析*为什么*生成的奖励失败,并使用针对性反馈以最小的迭代修复特定失败模式。我们主要在离散的MiniGrid任务上评估,并将连续的MuJoCo任务作为诊断假设的压力测试。

### 2.3 MiniGrid环境

我们使用MiniGrid框架(Chevalier-Boisvert et al., 2023),该框架提供了一套具有部分可观测性的网格世界环境。智能体接收7×7×3的符号观测,编码每个可见单元格的对象类型、颜色和状态。动作是离散的:左转、右转、前进、拾取、放下、切换和完成。

### 2.4 MuJoCo连续控制

为了探测超出离散网格世界的边界,我们还在通过Gymnasium(Towers et al., 2024)的MuJoCo(Todorov et al., 2012)连续控制任务上进行评估。对于到达任务:Reacher-v4(2自由度平面臂,11维观测,2维动作)和FetchReach-v4(7自由度机器人臂,13维观测,4维动作)(Plappert et al., 2018)。对于到达诊断,我们将成功定义为末端执行器距离低于0.05。我们进一步在标准移动基准上评估:HalfCheetah-v4(2D跑步者,17维观测,6维动作)和Hopper-v4(单腿跳,11维观测,3维动作)。与具有稀疏二元成功的到达任务不同,这些任务具有密集的多组件奖励(前进速度+生存奖励-控制成本),使其成为围绕二元成功信号设计的诊断的边界测试。

### 2.5 内在动机

随机网络蒸馏(RND)(Burda et al., 2019)是一种广泛使用的内在动机方法,基于固定随机网络和可训练预测器之间的预测误差提供探索奖励。内在奖励在新状态中很高,并随着预测器学习而降低。RND是领域无关的,不需要任务特定知识,使其成为我们LLM引导奖励设计方法的自然比较基线。

## 3 方法

### 3.1 概述

我们的管道有三个组件(图1):
1. 奖励生成:LLM接收环境的自然语言描述,并生成一个Python函数reward_fn(obs, action, reward, terminated, truncated, info, state),该函数返回塑造后的奖励和更新后的状态字典。
2. RL训练:一个标准的PPO(Schulman et al., 2017)智能体使用塑造后的奖励进行训练。环境包装器在info字典中提供结构化信息(智能体位置、携带状态、事件文本)。
3. 迭代优化(可选):在短暂的探测训练运行后,自动化诊断评估奖励函数是否表现出失败模式。诊断和训练指标反馈给LLM,LLM生成修订后的函数。

迭代优化循环(≤3轮)
环境描述 → LLM(Claude / GPT)→ reward_fn Python代码 → PPO训练 → 训练好的智能体
      提示    生成    塑造    3000 eps
            探测(500 eps)→ 自动化诊断 → 短运行指标 → 反馈 + 先前代码
                                      沙箱验证 → 通过

图1:LLM引导奖励设计概述。LLM根据自然语言环境描述生成奖励塑造函数,在使用前在沙箱中验证。在迭代模式下(虚线),短时探测运行提供诊断,最多进行3轮优化。

### 3.2 奖励函数接口

生成的奖励函数接收完整的转移元组以及一个可变的state字典,该字典在回合内的步骤间持久化(在回合间重置)。这允许一次性奖励:

def reward_fn(obs, action, reward, terminated,
    truncated, info, state):
    shaped = reward
    if not state.get("key_picked_up"):
        if "picked up" in info["event_text"].lower():
            shaped += 0.2
            state["key_picked_up"] = True
    return shaped, state

info字典暴露:agent_pos, carrying, event_text(自然语言事件描述), step_count, 和 max_steps。

### 3.3 LLM提示设计

生成提示包括:(1) 环境名称和目标描述,(2) 可用的观测空间和动作空间,(3) info字典字段及示例,(4) 约束(奖励幅度0.01–0.5,使用一次性奖励,避免连续奖励)。对于优化,我们额外包括:(5) 先前奖励函数源代码,(6) 探测训练指标(成功率、平均奖励),(7) 诊断的失败模式。

### 3.4 自动化诊断

每次探测训练运行后,我们计算三个诊断(具体阈值见表16;支持证据见第8节):
- 奖励漏洞利用:如果平均奖励 > 0.5 且成功率 < 0.2,则智能体在未完成任务的情况下积累塑造奖励。在密集奖励移动任务中禁用,这些任务缺乏二元成功信号,转而使用回报趋势分析(第9.4节)。
- 塑造不足:如果成功率和平均奖励均 < 0.1,则奖励奖励太小,无法指导探索。
- 学习停滞:如果成功率在探测窗口内停滞(提升 < 5%)且探测次数 > 1,000,则智能体可能陷入局部最优。此门控在默认的500回合MiniGrid探测中不激活,为更长的探测变体保留,而非作为主要500回合结果的驱动因素。

这些诊断在优化提示中被格式化为自然语言警告。控制实验(第8节)表明,分类法指导的反馈有用但不完美:奖励漏洞利用检测在某些环境中可能产生误报,塑造不足反馈在中难度任务上有用,而停滞规则需要更长的探测才能进行因果解释。

### 3.5 迭代优化算法

算法3.5形式化了迭代优化过程。

算法1:LLM引导的迭代奖励设计

### 3.6 安全性与验证

生成的奖励函数在沙箱命名空间中执行,具有受限的__builtins__(仅限math, abs, min, max, len等)。未通过验证的函数(语法错误、在虚拟输入上的运行时错误)会触发最多3次重试并附带错误反馈。

### 3.7 扩展到连续控制

对于MuJoCo环境,我们如下调整管道:(1) info字典暴露位置

相似文章

超越推理:强化学习释放大型语言模型中的参数化知识

arXiv cs.CL

本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。