Claude Code 在一夜之间将我的 Agent 框架性能提升了 40%

Reddit r/AI_Agents 2026/05/12 19:10 工具

摘要

作者介绍了“Autoharness”，这是一个利用 Claude Code 通过迭代提示词和超参数来自主优化 Agent 框架的工具。在 tau2-airline 基准测试中，该工具使性能提升了 40%。

还记得你第一次使用 Claude Code 时的体验吗？同样的飞跃现在发生在更高层级。社区的发展轨迹从提示词工程（prompt engineering）演进到上下文工程（context engineering），再到 Agent 工程（agent engineering），如今已迈向**框架工程（harness engineering）**。我问自己：在框架之上还有什么？是能够构建框架的东西。于是我动手做了出来。**Autoharness** 让 Claude Code / Codex 探索对你框架（例如提示词、超参数、运行时上下文、评分机制）的修改，运行评估，并仅保留那些实际提升分数的改动。灵感来自 Karpathy 的 autoresearch。我将其指向我自己的 Agent 并让它运行。在 tau2-airline 基准测试中，它自主发现：* **通过添加基于 LLM 裁判的 Best-of-N Skillbook 评分机制，性能提升了 40.7%** * **通过收紧 Reflector 超参数（温度 + 最大子 Agent 调用次数），性能提升了 24.1%** * **通过在每一步注入运行时上下文（步骤预算、最近的工具调用、最近的结果），性能提升了 22.2%** **TLDR：** Claude Code 为我调整 Agent 的提示词和配置。它会尝试一项改动，运行我的评估，并仅在分数上升时才保留该改动。

查看原文

相似文章

@geekbb: Agent harness 自动化优化工具，接管了 Agent harness 优化的脏活，你给一个基准测试命令和目标仓库，它就自动生成提案、跑评测、记结果、留好的，弃差的，自动改进 agent 的 prompt、配置和源码。 https…

X AI KOLs Timeline

autoharness 是一个自动化代理 harness 优化工具，能基于基准测试命令自动生成提案、运行评估并改进 agent 的 prompt、配置和源码，支持 Codex 和 Claude。

Claude Code 在一夜之间将我的 Agent 框架性能提升了 40%

相似文章

@geekbb: Agent harness 自动化优化工具，接管了 Agent harness 优化的脏活，你给一个基准测试命令和目标仓库，它就自动生成提案、跑评测、记结果、留好的，弃差的，自动改进 agent 的 prompt、配置和源码。 https…

@omarsar0: // 自我束具：能自我改进的束具 // （收藏这个）我们今天依赖的大多数智能体框架…

用于长时间运行代理的有效工具

你的智能体能力取决于其框架。我开源了一个框架，单个函数调用背后集成了40项能力

@_vmlops: 这是让 Claude Code 快 25 倍的 harness。大多数开发者直接使用 claude code。这个仓库将它包装成一个完整的计划→…

提交意见反馈