Claude Code 在一夜之间将我的 Agent 框架性能提升了 40%
摘要
作者介绍了“Autoharness”,这是一个利用 Claude Code 通过迭代提示词和超参数来自主优化 Agent 框架的工具。在 tau2-airline 基准测试中,该工具使性能提升了 40%。
还记得你第一次使用 Claude Code 时的体验吗?同样的飞跃现在发生在更高层级。社区的发展轨迹从提示词工程(prompt engineering)演进到上下文工程(context engineering),再到 Agent 工程(agent engineering),如今已迈向**框架工程(harness engineering)**。我问自己:在框架之上还有什么?是能够构建框架的东西。于是我动手做了出来。**Autoharness** 让 Claude Code / Codex 探索对你框架(例如提示词、超参数、运行时上下文、评分机制)的修改,运行评估,并仅保留那些实际提升分数的改动。灵感来自 Karpathy 的 autoresearch。我将其指向我自己的 Agent 并让它运行。在 tau2-airline 基准测试中,它自主发现:* **通过添加基于 LLM 裁判的 Best-of-N Skillbook 评分机制,性能提升了 40.7%**
* **通过收紧 Reflector 超参数(温度 + 最大子 Agent 调用次数),性能提升了 24.1%**
* **通过在每一步注入运行时上下文(步骤预算、最近的工具调用、最近的结果),性能提升了 22.2%**
**TLDR:** Claude Code 为我调整 Agent 的提示词和配置。它会尝试一项改动,运行我的评估,并仅在分数上升时才保留该改动。
相似文章
@geekbb: Agent harness 自动化优化工具,接管了 Agent harness 优化的脏活,你给一个基准测试命令和目标仓库,它就自动生成提案、跑评测、记结果、留好的,弃差的,自动改进 agent 的 prompt、配置和源码。 https…
autoharness 是一个自动化代理 harness 优化工具,能基于基准测试命令自动生成提案、运行评估并改进 agent 的 prompt、配置和源码,支持 Codex 和 Claude。
@omarsar0: // 自我束具:能自我改进的束具 // (收藏这个)我们今天依赖的大多数智能体框架…
本文介绍了自我束具(Self-Harness),一种新的范式,其中基于LLM的智能体能够迭代地改进自身的操作束具——包括提示、工具和控制流程——无需人类工程师或更强大的外部智能体,在多个模型上取得了显著的性能提升。
用于长时间运行代理的有效工具
Anthropic 推出了一种由两部分组成的解决方案,使用初始化代理和编码代理,使 Claude Agent SDK 能够有效处理跨多个上下文窗口的长时间运行任务,并通过保持干净、增量的状态来实现。
你的智能体能力取决于其框架。我开源了一个框架,单个函数调用背后集成了40项能力
一个开源智能体框架,单个函数调用背后集成了40项能力,包括持久内存、Docker沙箱、自动摘要、死循环检测、预算上限和实时运行分支(用于分支智能体执行)。基于Pydantic AI构建,旨在替换每个生产级智能体所需的2000行胶水代码。
@_vmlops: 这是让 Claude Code 快 25 倍的 harness。大多数开发者直接使用 claude code。这个仓库将它包装成一个完整的计划→…
一个名为 claude-code-harness 的新开源工具将 Claude Code 封装在结构化的计划-工作-审查-提交循环中,使用 Go 原生引擎实现 25 倍更快的性能,并包含防止破坏性操作的防护措施。