RewardHarness:自演进的代理式后训练框架
摘要
RewardHarness 是一个用于后训练的自演进代理框架,通过迭代优化工具和技能库来替代大规模偏好标注,在图像编辑评估基准上的表现优于 GPT-5。
查看缓存全文
缓存时间: 2026/05/12 07:21
# RewardHarness:自进化智能体后训练
来源:https://arxiv.org/html/2605.08703
Yuxuan Zhang1,2,3,6,∗, Penghui Du3,∗, Bo Li3,∗, Cong Wei5,∗, Junwen Miao4, Huaisong Zhang7, Songcheng Cai5, Yubo Wang2,5, Dongfu Jiang2,5,†, Yuyu Zhang8, Ping Nie5,†, Wenhu Chen2,5,†, Changqian Yu3,§, Kelsey R\. Allen1,2,† 1不列颠哥伦比亚大学 2Vector研究所 3快手科技 Kolors团队 4卡内基梅隆大学 5滑铁卢大学 6Etude AI 7清华大学 8佐治亚理工学院
###### 摘要
评估指令引导的图像编辑需要能够反映微妙人类偏好的奖励,但目前的奖励模型通常依赖于大规模偏好标注和额外的模型训练。这造成了数据效率差距:人类通常只需很少的示例就能推断出目标评估标准,而模型通常需要在数十万次比较上进行训练。我们提出了RewardHarness,这是一个自进化的智能体奖励框架,它将奖励建模重构为上下文演化,而非权重优化。RewardHarness并不从大规模标注中学习,而是通过从多达100个偏好演示中迭代演化工具和技能库,从而与人类偏好保持一致。给定源图像、候选编辑图像和编辑指令,协调器(Orchestrator)从维护的库中选择最相关的工具和技能子集,冻结的子智能体(Sub-Agent)使用它们构建推理链以生成偏好判断。通过比较预测判断与真实偏好,并分析推理过程中的成功与失败,协调器自动完善其工具和技能库,无需额外的人类标注。仅使用0.05%的EditReward偏好数据,RewardHarness在图像编辑评估基准上达到了47.4%的平均准确率,超越GPT-5 5.3个点。当用作GRPO微调的奖励信号时,经过RL调整的模型在ImgEdit-Bench上达到3.52。项目主页:https://rewardharness.com/。
11脚注文本:同等贡献。§项目负责人。†顾问。参见图1图注:范式比较。传统范式收集大规模人类偏好数据,训练奖励模型,并将其用作RL对齐的奖励信号。相比之下,RewardHarness从少量偏好演示开始,通过迭代评估和分析自演化技能和工具库,产生一个可解释的奖励系统。## 1引言
图像编辑技术取得了 rapid 进展,但可靠的评估仍然是主要瓶颈。这一挑战在视觉生成和编辑的强化学习中尤为突出,其进步依赖于忠实反映人类偏好的奖励信号\[12 (https://arxiv.org/html/2605.08703#bib.bib12),35 (https://arxiv.org/html/2605.08703#bib.bib35),1 (https://arxiv.org/html/2605.08703#bib.bib1),43 (https://arxiv.org/html/2605.08703#bib.bib43)\]。
如图1 (https://arxiv.org/html/2605.08703#S0.F1)(a)所示,现有方法\[33 (https://arxiv.org/html/2605.08703#bib.bib33),11 (https://arxiv.org/html/2605.08703#bib.bib11),27 (https://arxiv.org/html/2605.08703#bib.bib27),34 (https://arxiv.org/html/2605.08703#bib.bib34),4 (https://arxiv.org/html/2605.08703#bib.bib4),29 (https://arxiv.org/html/2605.08703#bib.bib29),17 (https://arxiv.org/html/2605.08703#bib.bib17),7 (https://arxiv.org/html/2605.08703#bib.bib7),16 (https://arxiv.org/html/2605.08703#bib.bib16),13 (https://arxiv.org/html/2605.08703#bib.bib13),25 (https://arxiv.org/html/2605.08703#bib.bib25)\]主要通过收集大规模人类偏好标注并在其上训练专用奖励模型来解决这一问题。虽然有效,但这种范式昂贵且不灵活:它会产生大量的标注成本,需要额外的模型训练,通常产生不透明的标量奖励,并且难以应用于封闭或仅API的基础模型。这些限制在图像编辑中尤为严重,因为偏好判断微妙、多维度,并且依赖于联合理解编辑指令、源图像和编辑结果。
更重要的是,这揭示了一个显著的不对称性。人类标注员通常可以从少量的校准集中内化目标评估标准,然后大规模一致地应用,而当前模型通常需要数十万个标记比较才能获得类似的偏好行为。这引出了本文的核心问题:如果人类可以从少量演示中获得图像编辑偏好,模型是否也能做到——纯粹在上下文中,且无需任何参数更新?
我们用RewardHarness回答了这个问题,这是一个自进化的智能体奖励框架,它将奖励建模重构为上下文演化——在保持模型权重固定的同时演化外部的技能和工具——而不是权重优化。如图1 (https://arxiv.org/html/2605.08703#S0.F1)(b)所示,关键思想不是花费少量演示来训练较小的奖励模型,而是利用它们迭代构建显式且可复用的评估知识库。具体来说,RewardHarness演化一个*技能*和*工具*库:*技能*提供结构化的评估指南,将图像编辑质量分解为细粒度的标准,而*工具*提供针对视觉分析的结构化规范,描述应该检查什么、如何分析以及何时调用该过程。给定源图像、候选编辑和编辑指令,协调器检索最相关的技能和工具子集,子智能体将它们组合成可解释的推理链,从而产生偏好判断。
这种设计导致了一种获得奖励能力的方式。RewardHarness不使用大量标注来拟合单体奖励网络,而是仅使用约100个偏好演示来迭代评估预测与人类标签的一致性,分析成功与失败,并在没有额外人类监督的情况下完善底层库。从这个意义上讲,RewardHarness不仅仅是一个更好的奖励模型;它是一种获得奖励能力的不同方式。所产生的奖励系统是数据高效的,兼容冻结和基于API的模型,并且更具可解释性,因为其评估行为外部化为可编辑的技能、工具和推理痕迹,而不是隐藏在模型参数中。
关键结果。建立在现成基础模型之上,RewardHarness在没有基于梯度的奖励模型训练的情况下取得了强劲的性能。使用基于Claude的协调器和冻结的Qwen2.5-VL-7B子智能体,RewardHarness在使用仅0.05%的偏好数据的情况下,超越了在20万对偏好数据上使用监督微调训练的基于Qwen的EditReward变体。RewardHarness(Gemini-2.0-Flash)在EditReward-Bench和GenAI-Bench上达到47.4%的平均准确率,超越GPT-5 5.3个点。当用作GRPO微调的奖励信号时,经过RL调整的模型在ImgEdit-Bench上达到3.52。
## 2方法
我们提出了RewardHarness,这是一个自进化的智能体奖励系统,它仅通过上下文演化获得人类评估偏好,而不更新任何评估器模型参数。RewardHarness由两个主要组件组成:一个协调器智能体和共享的可解释评估工件库。在推理时,协调器从库中检索相关工件,并将其注入冻结的子智能体视觉语言模型(VLM)的上下文中,由该模型执行偏好判断。在演化时,协调器使用少量人类偏好演示校准集驱动库的迭代完善。图2 (https://arxiv.org/html/2605.08703#S2.F2)提供了完整流程的概述。我们将依次描述每个组件:问题形式化(§2.1 (https://arxiv.org/html/2605.08703#S2.SS1))、技能和工具库(§2.2 (https://arxiv.org/html/2605.08703#S2.SS2))、协调器(§2.3 (https://arxiv.org/html/2605.08703#S2.SS3))、子智能体(§2.4 (https://arxiv.org/html/2605.08703#S2.SS4))以及自演化循环(§2.5 (https://arxiv.org/html/2605.08703#S2.SS5))。
参见图2图注:RewardHarness自演化流程概述。多模态输入(源图像、编辑提示和编辑图像候选;排名任务对候选重复此评分)馈送到协调器,协调器从技能和工具库中选择相关条目。子智能体(冻结的VLM,例如Qwen2.5-VL-7B)使用选定的技能和工具构建推理链,产生评分和偏好判断。输出与真实值进行评分;协调器分析推理链以生成更新库的改进信号。### 2.1问题形式化
给定源图像$I_s$、编辑指令$p$和$K$个候选编辑图像$\{I_1, \dots, I_K\}$,任务是产生标量偏好评分$\mathbf{s}=(s_1, \dots, s_K)$以及由此产生的偏好排名$\pi$ over $\{1, \dots, K\}$,使得$I_{\pi(1)} \succ I_{\pi(2)} \succ \cdots \succ I_{\pi(K)}$。评分是与我们在人类演示中使用的相同离散标准(在我们的实现中为1–5)上的序数质量估计;仅使用其相对顺序进行排名准确率,而相等的评分被视为平局。在RewardHarness中,评分和排名由完全由在推理时组装的上下文$\mathcal{C}$引导的冻结VLM $\mathcal{M}$实现:
$$\mathbf{s}, \pi = \mathcal{M}\bigl(I_s, \;\{I_k\}_{k=1}^K, \;p, \;\mathcal{C}\bigr), \quad (1)$$
其中$\mathcal{C}$包括由协调器选择的技能文档和工具规范;$\mathcal{M}$的参数从不更新。因此,偏好判断由评分$\mathbf{s}$和通过对它们排序获得的排名$\pi$组成。对于基准评估,将预测排名与人类偏好标签进行比较。对于下游GRPO,生成的编辑作为唯一候选人与源图像和指令进行评分;所得的1–5分由GRPO训练器进行批归一化,并在与比较的奖励模型使用的相同归一化下用作奖励信号。
### 2.2技能和工具库
RewardHarness维护一个*库*,这是一个版本化的技能和工具集合,编码了积累的评估知识。库初始化为空,并通过自演化增长(§2.5 (https://arxiv.org/html/2605.08703#S2.SS5))。这两个组件的代表性示例如图3 (https://arxiv.org/html/2605.08703#S2.F3)所示。
#### 技能。
*技能*是一个结构化的Markdown评估指南,包含:一个*名称*、一行*描述*、一个将质量分解为可评估标准的*评分标准*,以及说明正确应用的*示例*。例如,技能*realism-and-artifact-penalties*提供了区分视觉伪影(总是受罚)和概念不真实(当编辑指令明确要求时可接受)的标准。
#### 工具。
*工具*是一个结构化的Markdown文档,指定了针对的视觉分析过程:它定义了工具的*名称*、*目的*、预期的*输入*和*输出*、*调用条件*以及逐步的*执行协议*。与技能(提供声明性评估标准)不同,工具提供*程序性*上下文规范,而不是独立的学习模块:通过阅读工具文档,通用VLM可以暂时充当特定视觉分析任务的专门专家,要么直接执行针对的分析,要么发出由工具模式定义的结构化二级VLM查询,而无需任何参数更新。例如,*text-and-ocr-analyzer*工具指示子智能体提取、比较和验证源图像和编辑图像中的文本内容,捕捉整体评估通常遗漏的拼写错误和放置错误。
参见图3图注:演化迭代69时从库中采样的*技能*和*工具*示例。技能是指导子智能体评估标准的声明性标准;工具是指令子智能体执行针对视觉分析的程序性规范。
### 2.3协调器层
协调器是一个基于Claude的LLM,服务于两个角色。在*推理*期间,它检查编辑指令、源图像和候选编辑图像,然后使用路由步骤(在图2 (https://arxiv.org/html/2605.08703#S2.F2)中标记为“Router”)从库中选择适当的技能和工具,并为子智能体组装评估上下文$\mathcal{C}$。为了保持上下文紧凑,工具通过渐进式披露暴露:协调器首先考虑名称和描述,然后仅在满足其调用条件时加载完整的工具模式。在*演化*期间,它分析子智能体的推理链与真实标签,对错误进行根本原因分析,并提出库更新(§2.5 (https://arxiv.org/html/2605.08703#S2.SS5))。
### 2.4子智能体
子智能体是一个冻结的、可插拔的VLM,接收来自协调器的多模态输入$I_s$、$\{I_k\}_{k=1}^K$、$p$和组装的上下文$\mathcal{C}$。通过阅读$\mathcal{C}$中的技能和工具文档,子智能体暂时采用专门评估者的角色并构建结构化推理链。我们的默认配置使用Qwen2.5-VL-7B-Instruct,但子智能体是完全可插拔的:我们还评估Gemini作为即插即用的替代品(表1 (https://arxiv.org/html/2605.08703#S2.T1))。推理链分三步进行:
1. 1\.标准应用。对于$\mathcal{C}$中的每个技能,子智能体将其评分标准应用于每个候选图像,根据技能的指南和示例产生每个标准的评估。
2. 2\.工具引导的分析(可选)。对于$\mathcal{C}$中满足调用条件的每个工具,子智能体遵循工具的执行协议执行针对的视觉分析(例如,OCR提取、空间关系验证、对象计数),并将结构化结果附加到推理链中。
3. 3\.聚合和排名。子智能体将所有每个标准的评估和工具输出合成为标量评分$\mathbf{s}$和$K$个候选者的最终偏好排名$\pi$。
### 2.5自演化循环
自演化循环输入一个小的人类偏好演示校准集$N=100$,$D=\{(I_s^{(i)}, p^{(i)}, \{I_k^{(i)}\}, \mathbf{s}^{*(i)}, \pi^{*(i)})\}_{i=1}^N$,其中$\mathbf{s}^{*(i)}$是人类评分,$\pi^{*(i)}$是由此产生的排名。协调器将$D$划分为训练集$D_{\text{train}}$(60个示例)和保留的验证集$D_{\text{val}}$(40个示例)。循环的每次迭代经过五个阶段:
#### 步骤1:评估。
对于$D_{\text{train}}$中的每个示例,协调器从当前库中检索最相关的技能和工具,并将其分配给子智能体。子智能体构建推理...相似文章
持续增强框架:面向自我改进基础智能体的在线适应
本文介绍了“持续增强框架”(Continual Harness),该框架使具身人工智能智能体能够在无需重置环境的情况下实现在线自我改进。研究展示了在《宝可梦》游戏中的显著进展,通过自动化提示词和技能优化,智能体达到了人类水平的表现。
Claude Code 在一夜之间将我的 Agent 框架性能提升了 40%
作者介绍了“Autoharness”,这是一个利用 Claude Code 通过迭代提示词和超参数来自主优化 Agent 框架的工具。在 tau2-airline 基准测试中,该工具使性能提升了 40%。
面向长时应用开发的Harness设计
Anthropic工程师详细介绍了一种多智能体Harness设计,利用生成器与评估器智能体提升Claude在长时间内自主构建完整、高质量前端应用的能力。
@astaxie: 今天群里面讨论怎么样学习 Harness,Harness 工程我学习这两个: 1. https://github.com/walkinglabs/learn-harness-engineering… 通过这个了解每一个 Harness 的…
A project-based course repository on Harness Engineering for AI coding agents, covering environment setup, state management, verification, and control mechanisms to make AI coding agents work reliably. The course synthesizes best practices from OpenAI and Anthropic on building effective harnesses for long-running agents.
利用推理框架进行训练:面向复杂推理的在策略框架自蒸馏
本文介绍了在策略框架自蒸馏(OPHSD),该方法通过自蒸馏将推理时框架的能力内化到基础模型中。该方法提高了模型在复杂推理任务上的独立性能,使模型能够在不依赖永久性外部工具的情况下保留推理辅助结构。