最好的智能代理工具会这样做……

Reddit r/AI_Agents 2026/06/16 07:32 工具

agent-harnesses llm-agents wrappers decision-making best-practices

摘要

作者分享了构建高效智能代理工具的见解：最好的工具最大限度地减少对大语言模型（LLM）在琐碎任务上的依赖，将其保留用于复杂推理，从而将真正的代理工具与简单的包装器区分开来。

我构建并使用了大量智能代理工具。我发现了一件事：- 对LLM依赖“最少”的工具往往表现最佳，而那些几乎总是依赖LLM的工具只是包装器，而非真正的代理工具。你的工具应使用LLM进行决策和非常复杂的推理，而不是所有琐碎的事情。这就是包装器与优秀代理工具的区别。你怎么看？

查看原文

相似文章

arXiv cs.AI

这篇立场论文认为，在长期跨度的LLM智能体任务中，执行框架（即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层）往往比模型本身更能决定性能，而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架，包含披露标准和方差分解协议。

X AI KOLs Following

本文介绍了自我束具（Self-Harness），一种新的范式，其中基于LLM的智能体能够迭代地改进自身的操作束具——包括提示、工具和控制流程——无需人类工程师或更强大的外部智能体，在多个模型上取得了显著的性能提升。

arXiv cs.LG

本文研究LLM智能体的框架设计，将其分解为任务拆解和引导执行，并展示了更精细的框架并非一致更好；它揭示了失败模式，并提出了部分框架的有效性。

arXiv cs.AI

本文通过实证测试了“更结构化的控制（harness）能普遍提高LLM智能体可靠性”这一常见假设，发现不同模型层级间存在非单调关系。它引入了HEAT-24基准，并揭示了严格的控制可能会损害前沿聊天模型，但有利于推理模型。

X AI KOLs Following

Harness-1 引入了一种状态外部化框架，将常规记账与搜索代理中的策略决策分离，使一个 20B 模型在多个基准测试中超越更大的前沿搜索器。