@Xudong07452910: 这篇 Harness Updating Is Not Harness Benefit 很适合做 Agent Harness 的人看。 它讲了一个很容易被忽略的问题:会更新 Harness,不等于真的会用好 Harness。 现在很多 Ag…
摘要
该帖子讨论了一篇论文,指出Agent系统自我进化中,更新Harness(写有用更新)与从更新中受益(后续任务真正使用)是两种不同能力,后者才是关键,弱模型往往不会使用规则。
查看缓存全文
缓存时间: 2026/06/03 07:47
这篇 Harness Updating Is Not Harness Benefit 很适合做 Agent Harness 的人看。
它讲了一个很容易被忽略的问题:会更新 Harness,不等于真的会用好 Harness。
现在很多 Agent 系统都会让模型根据失败经验去改 prompt、skill、memory、tool,但论文把这里拆成两种能力:
- harness-updating:能不能写出有用的更新;
- harness-benefit:后续任务里能不能真正从这些更新中受益。
反直觉的是,写更新这件事并不一定需要最强模型。论文发现,不同能力层级的模型写出的 Harness 更新,带来的收益差距没想象中大。
真正拉开差距的是:执行任务的 Agent 能不能找到、调用并长期遵守这些更新。弱模型经常不是没有好规则,而是不会用,或者用着用着就忘了。
所以 Agent 自我进化的关键,可能不只是“让模型学会改自己的 skill”,而是让它在真实任务里真正吃到这些 skill 的收益。
换句话说,Harness 更新只是把经验写进系统,Harness benefit 才是经验真的变成能力。
https://arxiv.org/pdf/2605.30621
#AgentHarness #AgenticAI #selfEvolving #claudecode #codex #LLM
相似文章
@Xudong07452910: 这篇最新的论文 Scaling Laws for Agent Harnesses 很适合做 Agent Harness 的人看。 它讲了一个很关键的点:Agent 不是靠多跑 token、多调工具、多循环几轮就一定变强。真正重要的是,这些…
这篇论文提出了 Effective Feedback Compute (EFC) 作为衡量 Agent Harness 性能的缩放坐标,强调有效反馈比原始计算量更重要,对 Agent 系统设计有重要启示。
工具更新并非工具收益:自进化LLM智能体中进化能力的解耦
本文分析了自进化LLM智能体中的两种能力:工具更新能力和工具收益能力。研究发现工具更新能力在不同基础能力层级间持平,而工具收益能力则呈现非单调性,其中中等层级模型收益最大。
@dotey: 去做一个 Agent Harness 这种事情价值不大了,怎么做也做不过模型公司,模型一升级好多活都白干了。 但是基于成熟的 Agent Harness 去做方案,大有可为。 MCP 只是解决了连接的问题,Skills 只是解决了领域知识…
作者认为直接开发Agent Harness价值不大,因为模型公司会主导,但基于成熟框架在垂直领域构建应用仍有很大机会,需要重新设计AI Native工作流、UI/UX和数据整理。
@xiaogaifun: 讲 Harness 最透彻的一个演讲。 这应该是我看到过的、关于 Harness Engineering 最透彻的一次分享,推荐大家看一下。 视频链接:https://podwise.ai/dashboard/episodes/80132…
这篇文章通过IBM工程师Tejas Kumar的演讲,深入讲解了Harness Engineering的概念,即通过为AI Agent添加确定性基础设施(如工具注册表、上下文管理、护栏和验证循环)来解决模型失控和幻觉问题,确保Agent稳定执行任务。
@Potatoloogs: https://x.com/Potatoloogs/status/2057391224592667051
本文深度拆解了Agent Harness的概念,即包裹在LLM外部的工程基础设施,包括编排循环、工具调用、记忆系统、上下文管理等12个组件。文章引用Anthropic、OpenAI、LangChain等公司的实践,论证了harness对生产级AI Agent的关键作用。