@Mnilax:谷歌和斯坦福的工程师刚刚发布了一份39页的PDF,内容是关于什么真正让AI agent自我改进的。输入→输出…

X AI KOLs Timeline 论文

摘要

谷歌和斯坦福的工程师发布的一份39页论文分析了使AI agent通过反馈循环自我改进的关键因素,并指出只有9%的agent实际运行了真正的循环。

谷歌和斯坦福的工程师刚刚发布了一份39页的PDF,内容是关于什么真正让AI agent自我改进的。 输入 → 输出 → 反馈 → 更新 → 重复 开头给出的数字:只有9%的agent运行了真正的循环。 另外91%的agent是手动输入下一个提示。 他们的观点:循环不是一个抽象概念,而是三个隐藏的选择 - 起始工件 - 信用范围 - 经验批处理 我花了几周时间才把这三点做对。 现在我的循环在睡觉时运行,并重写自己的技能文件,这样它就不用再问我第二次。 论文解释了为什么91%的循环会悄然消亡。而那篇文章就是那个没有失败的。
查看原文
查看缓存全文

缓存时间: 2026/06/25 11:18

Google和斯坦福的工程师们刚刚发布了一份39页的PDF文档,揭示了AI代理究竟如何实现自我改进。

输入 → 输出 → 反馈 → 更新 → 重复

文档开篇就给出了一个数字:只有9%的代理能够运行真正的循环。

其他91%的代理,实际上都是靠人类手动输入下一个提示。

他们的观点:循环不是一种氛围,而是三个隐藏的选择

  • 起始工件(starting artifact)
  • 信用跨度(credit horizon)
  • 经验批处理(experience batching)

我花了几周时间才把这三点搞对。

现在,我的循环在我睡觉时自动运行,并重写自己的技能文件,这样它就不会再问我第二遍。

论文解释了为什么91%的循环静悄悄地死掉。而本文,就是那个没有死掉的循环。

相似文章

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2054201045346287766

X AI KOLs Timeline

文章探讨了 Sakana AI 和 Meta 关于自我改进型 AI 智能体的最新研究,具体涉及达尔文-哥德尔机器(Darwin-Gödel Machine)和超智能体(Hyperagents),它们能够自主重写自身代码和基础设施以提升性能,且无需人工干预。