Claude Code 在一夜之间将我的 Agent 框架性能提升了 40%

Reddit r/AI_Agents 工具

摘要

作者介绍了“Autoharness”,这是一个利用 Claude Code 通过迭代提示词和超参数来自主优化 Agent 框架的工具。在 tau2-airline 基准测试中,该工具使性能提升了 40%。

还记得你第一次使用 Claude Code 时的体验吗?同样的飞跃现在发生在更高层级。社区的发展轨迹从提示词工程(prompt engineering)演进到上下文工程(context engineering),再到 Agent 工程(agent engineering),如今已迈向**框架工程(harness engineering)**。我问自己:在框架之上还有什么?是能够构建框架的东西。于是我动手做了出来。**Autoharness** 让 Claude Code / Codex 探索对你框架(例如提示词、超参数、运行时上下文、评分机制)的修改,运行评估,并仅保留那些实际提升分数的改动。灵感来自 Karpathy 的 autoresearch。我将其指向我自己的 Agent 并让它运行。在 tau2-airline 基准测试中,它自主发现:* **通过添加基于 LLM 裁判的 Best-of-N Skillbook 评分机制,性能提升了 40.7%** * **通过收紧 Reflector 超参数(温度 + 最大子 Agent 调用次数),性能提升了 24.1%** * **通过在每一步注入运行时上下文(步骤预算、最近的工具调用、最近的结果),性能提升了 22.2%** **TLDR:** Claude Code 为我调整 Agent 的提示词和配置。它会尝试一项改动,运行我的评估,并仅在分数上升时才保留该改动。
查看原文

相似文章

用于长时间运行代理的有效工具

Anthropic Engineering

Anthropic 推出了一种由两部分组成的解决方案,使用初始化代理和编码代理,使 Claude Agent SDK 能够有效处理跨多个上下文窗口的长时间运行任务,并通过保持干净、增量的状态来实现。