@rohanpaul_ai: 更好的自我改进智能体需要更好的求解器，而非更大的更新编写模型。这挑战了常见的习惯……

X AI KOLs Following 2026/06/05 03:13 论文

self-improving-agents llm-agents model-evolution agent-harness paper-summary reasoning

摘要

本文厘清了自我改进的LLM智能体中进化器与智能体的角色，表明一个小型进化器可以编写足够好的更新，而中端智能体最能从中受益。论文建议将最强的模型用作任务执行器，而非更新编写器。

更好的自我改进智能体需要更好的求解器，而非更大的更新编写模型。这挑战了将最强模型放在进化器位置的常见习惯。通常的直觉是：将最强模型放在进化器位置，因为更好的模型应该能编写更好的提示、记忆、工具和技能。这篇论文将这种直觉一分为二。它区分了两个通常被模糊在一起的工作：编写有用的工具更新，以及在任务执行中利用这些更新获益。论文指出，较便宜的模型往往能编写足够好的提示、记忆或技能更新。因此，一个小型的Qwen3.5-9B进化器可以创建出与Claude Opus 4.6几乎一样有帮助的更新。昂贵的模型更适合作为实际利用这些更新求解任务的智能体。即，利用更新非常依赖模型，因为弱模型常常无法加载正确的技能，或加载后又在长任务中停止遵循。强模型能够使用工具，但它们可能已经接近自身天花板，更新能带来的提升空间有限。最佳平衡点是中端模型：有足够的能力调用并遵循新程序，但又不会强到工具已无更多可教。 ---- 链接 – arxiv. org/abs/2605.30621 标题：“工具更新并非工具收益：在自我演化的LLM智能体中解构演化能力”

查看原文

查看缓存全文

缓存时间: 2026/06/05 13:16

更好的自我改进型智能体需要更优秀的求解器，而非更强大的更新编写模型。

这一结论挑战了将最强模型放在演进器位置上的常见做法。

常规直觉是：把最强模型放在演进器位置，因为更好的模型理应能写出更好的提示、记忆、工具和技能。

这篇论文则颠覆了这种直觉的一半。

它区分了通常被混淆的两项任务：编写有用的框架更新，以及在任务执行中获益于这些更新。

论文指出，更便宜的模型往往能写出足够好的提示、记忆或技能更新。因此，一个较小的Qwen3.5-9B演进器所能创建的更新，其帮助程度与Claude Opus 4.6几乎不相上下。

昂贵的模型更适合作为实际利用这些更新求解任务的智能体。

也就是说，使用更新非常依赖模型本身——因为弱模型常常无法正确加载相应技能，或是加载后便无法在长时间任务中持续遵循。

强模型能够使用框架，但它们可能已接近自身能力上限，导致更新带来的提升空间有限。

最佳选择是中端模型：既具备足够能力来调用和执行新程序，又不会强到让框架已无可教。

链接 – arxiv.org/abs/2605.30621

标题：“框架更新并非框架收益：解构自我演进大语言模型智能体的进化能力”

@rohanpaul_ai: 更好的自我改进智能体需要更好的求解器，而非更大的更新编写模型。这挑战了常见的习惯……

相似文章

@dair_ai: // MetaSkill-Evolve // 关于自我改进代理的优秀论文。大多数自我改进代理重写代理所做的并……

@omarsar0: 关于自我改进代理的非常好的建议。（收藏）这是我正在自己的实验中观察到的现象，关于编码...

@qinzytech: https://x.com/qinzytech/status/2066585405479371092

@rohanpaul_ai: 更强的AI智能体不仅来自更大的模型，更来自围绕它们的更优系统。问题在于，许多AI…

@HuggingPapers: 现代智能体系统中的自我改进——一项涵盖239篇论文的调研，关于AI智能体如何通过更新模型…

提交意见反馈