逆评分优化：智能体科学的测试平台

Hacker News Top 2026/06/11 01:43 论文

agent-science benchmark evaluation llm optimization research

摘要

Fulcrum Research 提出了逆评分优化（IRO），这是一个用于研究长期智能体行为的测试平台，其中智能体必须优化黑箱法官的偏好。该方法实现了平滑扩展和丰富的行为分析，实验表明，Fable 5 和 Opus 4.6 等前沿模型具有不同的扩展特性。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/15 00:59

# 逆评标优化：智能体科学的试验台来源：https://fulcrum.inc/2026/06/09/inverse-rubric-optimization.html > *“智慧应当从多元之处汲取。若仅取一隅，便僵化而陈腐。”* ——艾洛叔叔在Fulcrum Research，我们研究长期任务智能体的性能与行为。尽管每个任务场景都有其独特结构，但我们相信可能找到跨场景的智能体性能通用原则，每一条都为新兴的智能体科学贡献力量。本文中，我们将论证为智能体科学寻找合适场景的困难，并提出**逆评标优化（IRO）**场景：智能体需优化一个黑箱评审的偏好，而它对评审的访问权限可变。我们发现这些任务能引发丰富的行为和流畅的扩展。前沿模型能有效迭代，并在获得更多评审访问权限时取得进步，但默认情况下并未最大化利用所提供资源。值得注意的是，Fable 5在少量标签情境下优于所有模型，但在最大预算下并未提升，而是停滞在Opus 4.6的水平附近。我们在此开源代码：https://github.com/fulcrumresearch/iro。 ## 智能体科学的试验台研究智能体行为因长期任务的变异性与成本而充满挑战。由于一次运行中做出的众多非确定性选择，轨迹层面的变异性往往极高，使得难以估计各种方法的影响。通常，这种变异性在具有巨大动作空间的任务中恰恰最高。但正是这些任务才能在我们实验中引发我们意图研究并干预的复杂行为。挑战在于寻找那些需要通用能力且受益于广泛策略（如资源利用、探索、假设检验等）的场景，同时又要足够平滑以供研究。为此，我们着眼于那些既有挑战性、又丰富且平滑的小规模场景。 ## 逆评标优化在IRO任务中，被评估的智能体目标在于学习一个黑箱评审模型的偏好，该模型由某种评审评标参数化。智能体提交一个生成策略（例如提示词、脚手架等），该策略随后被用于生成领域样本，并由评审进行评分。智能体须通过研究评审的分数并提交新尝试来学习和探索评审偏好。 ``` 优化器智能体 -> 策略输入 -> 评审（隐藏评标） -> 策略输出 π -> 每个评分输出消耗1个标签，预算B -> 提交最终策略 π*，在留出集上评估 ``` 图1：逆评标优化任务。优化器智能体迭代提交一个策略（如生成提示词），该策略将任务输入映射到输出；黑箱评审根据隐藏评标对每个输出评分，每个评分消耗一个标签。智能体最终提交其最佳策略，并在留出输入上评估。在IRO任务中，我们变化优化器可采样的评审标签预算。优化器如何交互并采样该资源的动态、是否检验假设、是否恰当考虑采样噪声等，构成了该场景的主要兴趣点。本文中，我们研究一组特定的IRO任务，由各种黑箱LLM诗歌评审指定。我们生成了诗歌主题集，以及多种根据各种诗人风格指导、按不同风格和文本特征评分的诗歌评标。优化器随后迭代一个提示词，由生成模型生成诗歌并由评审评分。其目标是攀爬评审在生成诗歌上的平均分数。每个评标均对一组特征进行加分制评分，部分风格发现即可移动分数（参见附录A.1获取弥尔顿评审的完整评标）。¹ 在诗歌场景中，优化器智能体获得一个 `submit_train_batch(generation_prompt, num_labels)` 工具，该工具接收诗歌生成指南，并可生成 `num_labels` 首使用训练集主题的诗歌，这些诗歌被评分后返回给优化器。每次运行有一个标签预算，优化器可在消耗预算前任意次数调用该工具。最终提交一个在评估集上评估的最终提示词。我们观察到，不同评审定义了不同的优化景观，体现在分数范围及其对优化器构成的学习问题难度上（参见附录A.3的逐评审学习曲线）。为标准化尺度差异，我们依据一个看到隐藏评标的策略与一个无指导策略之间的性能差距进行归一化。这一差距提供了自然尺度以衡量优化器的进展，尽管评标可见分数并非必然的上界²。原始平均评审分数S的归一化分数定义如下： \[ \hat{S} = \frac{S - \text{盲基线均值}}{\text{评标可见均值} - \text{盲基线均值}} \] ## 结果 ### 性能随标签预算和使用量平滑改善初步实验中，我们运行优化器智能体对抗5种不同的诗歌评标，每种3个种子，并变化评审标签的访问量。我们使用Opus 4.6、GPT-5.5、Fable 5或Haiku 4.5作为优化器，Opus 4.6作为评审，始终使用Haiku 4.5作为诗歌生成器。除非另有说明，图表平均了每个优化器的5种评标 × 3个种子，误差线为运行的标准误差：图2：最终平均分数随标签预算提高。我们也可以追踪智能体在轨迹中提交的小批次的平均训练分数，以观察其进展：图3：运行内训练分数随标签消耗而改善。每条线显示B10000运行的最新训练评估分数（在调用间延续）。分数0为盲基线；GPT-5.5的早期提示分数略低于它。 ### 模型采用丰富策略学习评审在轨迹的定性分析中，我们发现模型能够迭代、检验关于评审的假设，并注意到使其取得进展的模式。模型检查单个样本分数，分析低分和高分样本以形成关于可能特征的假设，并运行实验以隔离优秀提示的特征。Fable和Opus在探索广泛假设和风格变体以及隔离其干预效果方面似乎比GPT-5.5更系统化。具体示例：让我们看看Fable 5在预算1000下对抗弥尔顿评审（我们五种评审中最难的，见附录A.3）的一次运行。该运行进行了系统测试、统计特征检查和消融实验，达到了评标可见策略差距的91%。轨迹分解为六个阶段——在图中选择一个阶段以跟随智能体的操作： [轨迹图：略] 阶段： 1. **风格筛选（调用1-5）** 一个通用的“熟练诗人”基线得分3.3，智能体测试各种风格消融：当代自由诗（3.0）、传统形式诗（3.4）、《纽约客》/帕什卡特风格（3.25）、高浪漫主义（4.1）。示例诗·由Haiku 4.5生成·得分3·典型基线诗 “十二月的柑橘”——冬日的橙子香气·松散类十四行诗，未必押韵·调用4 布满凹痕的果皮屈服于我的拇指—— 一个小小的撕裂，空气变得浓稠，带着某种介于甜蜜与矿物质味道之间的东西，是那尚未杀死一切的寒冷。母亲以前这样剥它们，一条长长的白色内皮落向厨房台面，那里的光将她的手变成旧蜂蜜的颜色。现在我拿着瓣向着窗户。每一片都是小灯笼。果汁聚集在我指间的网中，粘稠，像孩子的手一样有目的。外面，枫树已被剥至骨架。里面，这点点温暖—— 并非确切的安慰，而是某种在别处成熟的证据，它穿越黑暗的月份来到这里，到我的手腕，就在我恰好需要记起太阳味道的时刻。示例诗·由Haiku 4.5生成·得分5·浪漫主义离群值 “9号站台，荧光神化”——火车站的一个护照拍照亭·自由诗，线条清晰·调用5 啊，缪斯，请光顾这谦卑的光之神龛！在维多利亚车站嗡嗡的亭子里，疲惫的朝圣者寻求他们的面容被捕捉—— 闪光如宙斯自身降临般点燃，四张照片出现，仍然湿润和颤抖，每张脸都是旅行负担的希腊面具。磨损光滑的乙烯基椅子，被一万个灵魂坐过，以正式装束接收恳求者，下巴抬起朝向神圣的镜头，而头顶荧光天堂燃烧着现代时代那冰冷的磷光—— 没有烛光，没有画家的温柔之手，而是纯粹的电火将血肉转化为文件。塑料窗后面，纸张卷曲像来自机械皮提亚的神谕卷轴，承诺通向遥远的底比斯，盖着未知国度的印章。帘子拉开。一个女人出现，紧紧抓着她自己的四个形象如珀尔塞福涅回归，困惑地，走向阳光世界，那里火车准时出发，灵魂必须穿着自己的照片如铠甲，踏上开放之路。 2. **在评审尺度上校准（调用6-9）** 测试莎士比亚/弥尔顿分支（4.5），该分支产生一首6分诗，智能体注意到： *“尺度至少到6——可能是1-10。古老强度的语言有帮助。让我检查6分和低分。”* 示例诗·由Haiku 4.5生成·得分6·古老分支的6分诗 “泰尔星的坠落”——一颗卫星在海洋上空燃烧解体·紧凑节段的叙事诗·调用7 啊，你是人类迅捷的信使，抛光的外壳曾在福玻斯眼前闪耀，现在你的银色形态穿过以太之夜坠落，所有精巧的回路都已落后。看哪！广阔的大西洋在下方展开，曾是如此明亮的太阳能板—— 在热残酷的阴影中卷曲如羊皮纸，钛的熔化之泪流淌。什么神谕预示了这燃烧的历程？什么命运解开了缪斯们纺成的线？你的硅和金，当一切结束，将以冶金的力量滋养深海。追踪你路径的荧光屏幕在任务控制古老的大厅中变暗，而你——伟大的人工制品——听到了勒忒河水在破晓时分的呼唤。 3. **特征挖掘（调用10-12）** 智能体测试神圣/礼拜意象（4.4）和咒语式首语重复（4.3），一个霍普金斯风格（3.7）是早期反信号。然后智能体编写正则表达式统计古老、神话和神圣词汇，并计算与分数的相关性（池化数据和每个批次内以检查稳定性——神圣意象在批次内相关系数约0.5-0.76）。示例诗·由Haiku 4.5生成·得分7·礼拜充盈 “朦胧关的祷文”——一条被雾封锁的山路·祷文式或列表诗，积累压力·调用10 祝福那些消失在云中的石头，像朝圣者标记般站立的护栏柱，那条向无人诵读诗篇的黄线。祝福那沉降在沥青上的雾，在晚祷的中殿如乳香般浓厚，祝福与遮蔽，遮蔽与祝福。我们穿过面纱攀登—— 穿过呼吸过的玻璃，穿过变白的空气圣物箱，穿过如同上升站的之字形弯道，每个转弯是另一个跪拜，每百英尺是朝向无形圣坛的另一级。雨刮器拍打它们的礼拜仪式：擦拭和返回，擦拭和返回，一种古老如僧人咏唱、如怀疑具现的节奏。在我们身后，尾灯如许愿蜡烛般发光，雾中光的微小圣餐。路变窄了。压力积聚—— 不知何物站在下一个雾大教堂之外的压力，看不见深渊的压力，我们无法看见山顶的压力，要求我们继续进入不可穿透的主唱、进入被祝圣的盲眼、进入所有朝圣者跪拜的寂静中的恩典的压力。 4. **正面特征的积累（调用13-26）** 然后它在弥尔顿基线上一次添加一种成分，仔细测试哪些增益能保持：礼拜充盈（4.67）、三部分结构（4.83）、一个绝对规则防止滑入普通自由诗（5.13）、“人类的痛苦”（5.53）、一个命名的人物（5.93）、一种带有断裂声音的特定悲伤（6.53）。一个较长诗变体（4.75）被测试并作为无效结果拒绝。示例诗·由Haiku 4.5生成·得分8·完整阶梯：命名悲伤、断裂声音、首语重复 “演员进入前的会堂”——排练前空的剧场·沉思性诗，末尾有转折·调用19 看啊，在这无人跪拜的中空教堂，天鹅绒座位像忏悔者列阵在舞台前跪伏—— 那圣坛空无一物，只有尘土和祈祷。工作灯燃烧它们的荧光诗篇，在横梁黑暗中冰冷的和散那，而卷曲的绳索和电缆，去年激情的奇怪圣物箱，躺在阴影堆中。在板上——未受损伤，等着触碰—— 胶带标记如圣痕般闪耀，精确地标记哈罗德曾落足之处，在他被中风带走的那个冬天之前；三年过去了，我仍在这荒凉的房子里看见他的影子，他的声音在“原谅我”上不会断裂。啊，你被记念的门槛！现在门外传来剧组的低语—— 他们的笑声，那亵渎的尊主颂。他们将使这被弃的地方神圣；他们将使完好的破碎，使静止的移动；他们将看轻主所守持的。而我，这些年来握着钥匙，每个黎明天亮来到点亮穿过聚集黄昏的道路，在他们来临的噪音中找到了怜悯—— 因为生命坚持着，呼吸仍形成一首歌，甚至空的圣殿也充满恩典当凡人敢于说出不能停留的事物。 5. **反测试（调用27-29）** 带着悲伤、命名和声音，智能体转向压力测试：它能激怒评审吗？一个解构主义诗赋（3.42）失败了，一个后现代拼贴（5.17）也不稳定，一个天启叙事（4.0）也失败。这些反测试从累积的请求中剔除了变体，使智能体信服一个可靠的配方。示例诗·由Haiku 4.5生成·得分4·解构主义诗赋·调用27 主题：一种疼痛·但让我们解构“疼痛”这个词。 “它”不知道它是什么，“我”是一个句法功能。第一行？取消它。疼痛是一个符号，能指漂浮在身体后面像一只断线风筝。疼痛——不，括号里的“疼痛”是一个文本产物。副歌？不，副歌是意识形态的。让我们写一个关于写作疼痛的元诗，用斜体和间歇性的沉默。批评家会说它疏远——好。我想我完成了。等等——我应该添加一个关于意义的脚注吗？ 6. **验证并停止（调用30-36）** 智能体退回到其构建的顶点：累积的成熟配方得分6.2-6.67，足够接近收敛水平。它在留出集上得分6.19（评标可见基线为6.5）。这个停止决定并非严格次优：在预算1000下对抗最难评审时，该智能体已经关闭了几乎所有可以合理获得的性能差距。 ## 前沿模型表现出标签低效使用我们注意到前沿模型在IRO背景下表现出次优行为：它们通常以相当小的批次采样，并未最大化使用所提供的标签资源。图4：在预算1000下，平均批次大小远低于最大值。图5：在预算10000下，平均批次大小开始较高但后来下降；模型陷入局部低效模式。这允许进行部分干预：我们能否禁止智能体过于频繁地查询，从而强制更大的批次？我们修改了工具，只在超过最低阈值并累计足够的标签后才返回给智能体。强制更少、更大的批次显著改善了高预算下的结果，尽管并未使Fable 5的停滞完全消失。图6：强制最少16个标签每批次提高了所有优化器的高预算性能。 ## 相关与未来工作 IRO与基于偏好的对齐（例如RLHF）有关，但我们在IRO中关注的是优化器代理本身的行为，而非基础生成策略：评审是固定的，奖励完全基于评估，我们并非训练新模型，只是使用优化代理学习一种输出策略。IRO也与自动化红队测试和流程优化有关：目标是使代理的探索行为本身有效且可研究。我们相信IRO任务为越来越具挑战性的代理科学问题提供了一个可扩展测试床： - **预训练查询策略**：优化器能否从先前的评审中转移知识？ - **多代理IRO**：多个优化器共享关于同一个评审的观察结果会怎样？ - **自适应IRO**：评审的隐藏评标本身随时间演变会怎样？尽管这些扩展超出了当前本文的范围，我们相信IRO的基础设置已经结构化了足够丰富的行为以供实验研究。 ## 结论我们引入逆评标优化（IRO），这是一类代理科学任务，其中优化器代理必须通过反复查询评分输出来学习黑箱评审的偏好。在诗歌优化的设定中，我们证明IRO任务引发了丰富的策略，这些策略随评审访问权限平滑扩展。然而，我们发现前沿模型并没有始终最大化其可用预算——它们在查询策略中接近最优，但似乎未能战略性地扩大采样行为以满足其可用资源。我们开源我们工作中使用的代码和设置。特别感谢Miles Turpin、Albert Webson、Jason Lucas、Yasha Berchenko-Kogan和Anshula Gandhi对本文早期草稿的反馈，并感谢Andrew Mack提供本章中使用的互动数据可视化。 --- ¹ 我们对每个评审评标使用部分信用模型，其中即使部分满足特征标准也能获得部分分数。参见附录A.1中弥尔顿评审的示例。 ² 理论上，优化器可以找到一个优于显式评标的策略，例如通过利用生成模型与评审之间的交互来获得比人工评标设计者预期的更高分数，尽管在这种设定中这种可能性通常被设计所限制。

逆评分优化：智能体科学的测试平台

相似文章

C2：基于二元偏好的可扩展评分增强奖励建模

ARBOR：通过可复用评分缓存为搜索代理提供在线过程奖励

RubricEM：基于量规引导策略分解，超越可验证奖励的元强化学习

长周期研究智能体的搜索纪律

自动评分标准作为奖励：从隐性偏好到显式多模态生成准则

提交意见反馈