@Xudong07452910: 这篇 Harness Updating Is Not Harness Benefit 很适合做 Agent Harness 的人看。它讲了一个很容易被忽略的问题：会更新 Harness，不等于真的会用好 Harness。现在很多 Ag…

X AI KOLs Timeline 2026/06/03 03:30 论文

agent harness self-evolving llm updating ai-research

摘要

该帖子讨论了一篇论文，指出Agent系统自我进化中，更新Harness（写有用更新）与从更新中受益（后续任务真正使用）是两种不同能力，后者才是关键，弱模型往往不会使用规则。

这篇 Harness Updating Is Not Harness Benefit 很适合做 Agent Harness 的人看。它讲了一个很容易被忽略的问题：会更新 Harness，不等于真的会用好 Harness。现在很多 Agent 系统都会让模型根据失败经验去改 prompt、skill、memory、tool，但论文把这里拆成两种能力： 1. harness-updating：能不能写出有用的更新； 2. harness-benefit：后续任务里能不能真正从这些更新中受益。反直觉的是，写更新这件事并不一定需要最强模型。论文发现，不同能力层级的模型写出的 Harness 更新，带来的收益差距没想象中大。真正拉开差距的是：执行任务的 Agent 能不能找到、调用并长期遵守这些更新。弱模型经常不是没有好规则，而是不会用，或者用着用着就忘了。所以 Agent 自我进化的关键，可能不只是“让模型学会改自己的 skill”，而是让它在真实任务里真正吃到这些 skill 的收益。换句话说，Harness 更新只是把经验写进系统，Harness benefit 才是经验真的变成能力。 https://arxiv.org/pdf/2605.30621 #AgentHarness #AgenticAI #selfEvolving #claudecode #codex #LLM

查看原文

查看缓存全文

缓存时间: 2026/06/03 07:47

这篇 Harness Updating Is Not Harness Benefit 很适合做 Agent Harness 的人看。

它讲了一个很容易被忽略的问题：会更新 Harness，不等于真的会用好 Harness。

现在很多 Agent 系统都会让模型根据失败经验去改 prompt、skill、memory、tool，但论文把这里拆成两种能力：

harness-updating：能不能写出有用的更新；
harness-benefit：后续任务里能不能真正从这些更新中受益。

反直觉的是，写更新这件事并不一定需要最强模型。论文发现，不同能力层级的模型写出的 Harness 更新，带来的收益差距没想象中大。

真正拉开差距的是：执行任务的 Agent 能不能找到、调用并长期遵守这些更新。弱模型经常不是没有好规则，而是不会用，或者用着用着就忘了。

所以 Agent 自我进化的关键，可能不只是“让模型学会改自己的 skill”，而是让它在真实任务里真正吃到这些 skill 的收益。

换句话说，Harness 更新只是把经验写进系统，Harness benefit 才是经验真的变成能力。

https://arxiv.org/pdf/2605.30621

#AgentHarness #AgenticAI #selfEvolving #claudecode #codex #LLM

相似文章

@Xudong07452910: 这篇最新的论文 Scaling Laws for Agent Harnesses 很适合做 Agent Harness 的人看。它讲了一个很关键的点：Agent 不是靠多跑 token、多调工具、多循环几轮就一定变强。真正重要的是，这些…

X AI KOLs Timeline

这篇论文提出了 Effective Feedback Compute (EFC) 作为衡量 Agent Harness 性能的缩放坐标，强调有效反馈比原始计算量更重要，对 Agent 系统设计有重要启示。

工具更新并非工具收益：自进化LLM智能体中进化能力的解耦

arXiv cs.AI

本文分析了自进化LLM智能体中的两种能力：工具更新能力和工具收益能力。研究发现工具更新能力在不同基础能力层级间持平，而工具收益能力则呈现非单调性，其中中等层级模型收益最大。

@dotey: 去做一个 Agent Harness 这种事情价值不大了，怎么做也做不过模型公司，模型一升级好多活都白干了。但是基于成熟的 Agent Harness 去做方案，大有可为。 MCP 只是解决了连接的问题，Skills 只是解决了领域知识…

X AI KOLs Timeline

作者认为直接开发Agent Harness价值不大，因为模型公司会主导，但基于成熟框架在垂直领域构建应用仍有很大机会，需要重新设计AI Native工作流、UI/UX和数据整理。

@xiaogaifun: 讲 Harness 最透彻的一个演讲。这应该是我看到过的、关于 Harness Engineering 最透彻的一次分享，推荐大家看一下。视频链接：https://podwise.ai/dashboard/episodes/80132…

X AI KOLs Timeline

这篇文章通过IBM工程师Tejas Kumar的演讲，深入讲解了Harness Engineering的概念，即通过为AI Agent添加确定性基础设施（如工具注册表、上下文管理、护栏和验证循环）来解决模型失控和幻觉问题，确保Agent稳定执行任务。

@PandaTalk8: 不要再去读 X 上又臭又长的 harness 工程的文章了，跟这篇文章相比， X 上的那些文章垃圾都不如。 Lilian-weng 的这篇新的博客文章，是我目前读过的最写的清晰、最容易理解的 harness 工程，也是递归自我改进的…

X AI KOLs Timeline

推荐并翻译了Lilian Weng关于Harness Engineering for Self-Improvement的博客文章，详细介绍了递归自我改进（RSI）的概念、Harness的模式（工作流自动化、文件系统持久记忆、子Agent）以及编码Agent案例。

相似文章

@Xudong07452910: 这篇最新的论文 Scaling Laws for Agent Harnesses 很适合做 Agent Harness 的人看。 它讲了一个很关键的点：Agent 不是靠多跑 token、多调工具、多循环几轮就一定变强。真正重要的是，这些…

工具更新并非工具收益：自进化LLM智能体中进化能力的解耦

@dotey: 去做一个 Agent Harness 这种事情价值不大了，怎么做也做不过模型公司，模型一升级好多活都白干了。 但是基于成熟的 Agent Harness 去做方案，大有可为。 MCP 只是解决了连接的问题，Skills 只是解决了领域知识…

@xiaogaifun: 讲 Harness 最透彻的一个演讲。 这应该是我看到过的、关于 Harness Engineering 最透彻的一次分享，推荐大家看一下。 视频链接：https://podwise.ai/dashboard/episodes/80132…

@PandaTalk8: 不要再去读 X 上又臭又长的 harness 工程的文章了， 跟这篇文章相比， X 上的那些文章垃圾都不如。 Lilian-weng 的这篇新的博客文章， 是我目前读过的最写的清晰、最容易理解的 harness 工程， 也是递归自我改进的…

提交意见反馈

@Xudong07452910: 这篇最新的论文 Scaling Laws for Agent Harnesses 很适合做 Agent Harness 的人看。它讲了一个很关键的点：Agent 不是靠多跑 token、多调工具、多循环几轮就一定变强。真正重要的是，这些…

@dotey: 去做一个 Agent Harness 这种事情价值不大了，怎么做也做不过模型公司，模型一升级好多活都白干了。但是基于成熟的 Agent Harness 去做方案，大有可为。 MCP 只是解决了连接的问题，Skills 只是解决了领域知识…

@xiaogaifun: 讲 Harness 最透彻的一个演讲。这应该是我看到过的、关于 Harness Engineering 最透彻的一次分享，推荐大家看一下。视频链接：https://podwise.ai/dashboard/episodes/80132…

@PandaTalk8: 不要再去读 X 上又臭又长的 harness 工程的文章了，跟这篇文章相比， X 上的那些文章垃圾都不如。 Lilian-weng 的这篇新的博客文章，是我目前读过的最写的清晰、最容易理解的 harness 工程，也是递归自我改进的…