@Xudong07452910: 这篇 Harness Updating Is Not Harness Benefit 很适合做 Agent Harness 的人看。 它讲了一个很容易被忽略的问题:会更新 Harness,不等于真的会用好 Harness。 现在很多 Ag…

X AI KOLs Timeline 论文

摘要

该帖子讨论了一篇论文,指出Agent系统自我进化中,更新Harness(写有用更新)与从更新中受益(后续任务真正使用)是两种不同能力,后者才是关键,弱模型往往不会使用规则。

这篇 Harness Updating Is Not Harness Benefit 很适合做 Agent Harness 的人看。 它讲了一个很容易被忽略的问题:会更新 Harness,不等于真的会用好 Harness。 现在很多 Agent 系统都会让模型根据失败经验去改 prompt、skill、memory、tool,但论文把这里拆成两种能力: 1. harness-updating:能不能写出有用的更新; 2. harness-benefit:后续任务里能不能真正从这些更新中受益。 反直觉的是,写更新这件事并不一定需要最强模型。论文发现,不同能力层级的模型写出的 Harness 更新,带来的收益差距没想象中大。 真正拉开差距的是:执行任务的 Agent 能不能找到、调用并长期遵守这些更新。弱模型经常不是没有好规则,而是不会用,或者用着用着就忘了。 所以 Agent 自我进化的关键,可能不只是“让模型学会改自己的 skill”,而是让它在真实任务里真正吃到这些 skill 的收益。 换句话说,Harness 更新只是把经验写进系统,Harness benefit 才是经验真的变成能力。 https://arxiv.org/pdf/2605.30621 #AgentHarness #AgenticAI #selfEvolving #claudecode #codex #LLM
查看原文
查看缓存全文

缓存时间: 2026/06/03 07:47

这篇 Harness Updating Is Not Harness Benefit 很适合做 Agent Harness 的人看。

它讲了一个很容易被忽略的问题:会更新 Harness,不等于真的会用好 Harness。

现在很多 Agent 系统都会让模型根据失败经验去改 prompt、skill、memory、tool,但论文把这里拆成两种能力:

  1. harness-updating:能不能写出有用的更新;
  2. harness-benefit:后续任务里能不能真正从这些更新中受益。

反直觉的是,写更新这件事并不一定需要最强模型。论文发现,不同能力层级的模型写出的 Harness 更新,带来的收益差距没想象中大。

真正拉开差距的是:执行任务的 Agent 能不能找到、调用并长期遵守这些更新。弱模型经常不是没有好规则,而是不会用,或者用着用着就忘了。

所以 Agent 自我进化的关键,可能不只是“让模型学会改自己的 skill”,而是让它在真实任务里真正吃到这些 skill 的收益。

换句话说,Harness 更新只是把经验写进系统,Harness benefit 才是经验真的变成能力。

https://arxiv.org/pdf/2605.30621

#AgentHarness #AgenticAI #selfEvolving #claudecode #codex #LLM

相似文章

@dotey: 去做一个 Agent Harness 这种事情价值不大了,怎么做也做不过模型公司,模型一升级好多活都白干了。 但是基于成熟的 Agent Harness 去做方案,大有可为。 MCP 只是解决了连接的问题,Skills 只是解决了领域知识…

X AI KOLs Timeline

作者认为直接开发Agent Harness价值不大,因为模型公司会主导,但基于成熟框架在垂直领域构建应用仍有很大机会,需要重新设计AI Native工作流、UI/UX和数据整理。

@xiaogaifun: 讲 Harness 最透彻的一个演讲。 这应该是我看到过的、关于 Harness Engineering 最透彻的一次分享,推荐大家看一下。 视频链接:https://podwise.ai/dashboard/episodes/80132…

X AI KOLs Timeline

这篇文章通过IBM工程师Tejas Kumar的演讲,深入讲解了Harness Engineering的概念,即通过为AI Agent添加确定性基础设施(如工具注册表、上下文管理、护栏和验证循环)来解决模型失控和幻觉问题,确保Agent稳定执行任务。

@Potatoloogs: https://x.com/Potatoloogs/status/2057391224592667051

X AI KOLs Timeline

本文深度拆解了Agent Harness的概念,即包裹在LLM外部的工程基础设施,包括编排循环、工具调用、记忆系统、上下文管理等12个组件。文章引用Anthropic、OpenAI、LangChain等公司的实践,论证了harness对生产级AI Agent的关键作用。