@zostaff: 这篇论文完全改变了我对自我改进智能体的看法：初始化 -> 运行 -> 分析 -> 分支 -> 更新…

X AI KOLs Timeline 2026/06/28 15:17 论文

self-improving-agents meta-agent feedback-agent scaffold reinforcement-learning fine-tuning

摘要

这篇论文提出了一种自我改进智能体的新颖蓝图，通过元智能体和反馈智能体结合支架编辑和权重训练，在AlphaFold的CUDA内核上实现了14倍加速。

这篇论文完全改变了我对自我改进智能体的看法：初始化 -> 运行 -> 分析 -> 分支 -> 更新以下是5步蓝图：初始化：元智能体根据任务规范和验证器构建智能体的第一个支架，仅此而已。运行：智能体在沙箱中执行，完整轨迹被记录，包括每个提示、工具调用和响应，而不是单一的总结指标。分析：反馈智能体读取轨迹并诊断具体的失败模式，而不是对统计数据做出反应。分支：在每一步，反馈智能体自己选择一个杠杆，修复支架（提示、工具、重试）或通过强化学习训练权重。更新：甚至强化学习方法也根据任务选择，包括GRPO、PPO、DPO、熵加权，基于奖励的形状。关键见解：支架改变了智能体的搜索方式，权重改变了模型所知道的内容，一个杠杆永远不会饱和另一个。在AlphaFold的CUDA内核上，一次支架编辑实现了1.14倍加速，但在此基础上训练权重则将运行时间削减了91.9%，最终达到14倍加速。请阅读此文，然后查看下面的文章。

查看原文

查看缓存全文

缓存时间: 2026/06/28 20:14

这篇论文彻底改变了我对自我进化智能体的思考方式：

Initialize -> Run -> Analyze -> Branch -> Update

以下是五步蓝图：

Initialize：元智能体根据任务说明和验证器构建智能体的初始框架，仅此而已。

Run：智能体在沙盒中执行，整个执行轨迹被完整记录——每次提示、工具调用及响应，而非单一汇总指标。

Analyze：反馈智能体读取该轨迹，诊断特定失败模式，而非仅对统计数据做出反应。

Branch：在每个步骤中，反馈智能体自行选择干预杠杆——要么修正框架（提示、工具、重试策略），要么通过强化学习训练权重。

Update：甚至强化学习方法也根据任务动态选择：GRPO、PPO、DPO、熵加权——完全依据奖励函数形态而定。

核心洞见：框架改变智能体的搜索方式，权重改变模型的知识内容，两种杠杆永远不会相互饱和。

在面向AlphaFold的CUDA内核中，一次框架编辑带来1.14倍加速，但在此基础上训练权重将运行时间削减91.9%，最终实现14倍提升。

阅读本文后，请参阅下方文章。

@zostaff: 这篇论文完全改变了我对自我改进智能体的看法：初始化 -> 运行 -> 分析 -> 分支 -> 更新…

相似文章

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2054201045346287766

@omarsar0: 关于自我改进代理的非常好的建议。（收藏）这是我正在自己的实验中观察到的现象，关于编码...

@qinzytech: https://x.com/qinzytech/status/2066585405479371092

@omarsar0：关于自我改进智能体的优秀论文。为什么？我们需要更深入地思考 AI 智能体系统设计。该协议规范……

@dair_ai: 关于自我改进智能体的优秀论文：

提交意见反馈