标签
一份实用指南,解释了构建自我改进AI智能体的三个层级,从手动循环到自动化设计,并推荐了工具和框架。
一家一人公司完全由7个AI代理、10个定时任务运行,没有人类员工。这些代理通过Telegram自我评估和改进。
这篇论文提出了一种自我改进智能体的新颖蓝图,通过元智能体和反馈智能体结合支架编辑和权重训练,在AlphaFold的CUDA内核上实现了14倍加速。
本文介绍了红皇后哥德尔机(RQGM),这是一个在非平稳效用下进行递归自我改进的进化框架,其中智能体和评估者共同进化,提高了在编程任务、科学写作和奥林匹克级证明评分方面的性能。
本文介绍了Regimes,一种基于ActiveGraph运行时的可审计、保留门控改进循环,用于自我改进代理。它通过在LongMemEval数据集上自主发现通过静态检查、沙盒执行和保留验证的提示修复,展示了适度的改进。
EEVEE是一种新颖的测试时提示学习框架,专为LLM代理设计,通过任务聚类和共同演化的路由器-提示优化来处理异构数据流,在多个基准测试上实现了显著优于现有方法的改进。
本周一篇重要的AI论文探讨了自我改进智能体是否真正发现新知识,还是仅仅在重新混合现有信息。
本文介绍了一个范畴论框架,用于区分自我改进的AI智能体中的真正科学发现与单纯的检索或搜索,利用范畴论来形式化状态转变。作者通过一个蛋白质力学示例展示了该框架:智能体在解决更难的问题时准确率下降,但其理论压缩了更多数据,表明真正的发现。
本文厘清了自我改进的LLM智能体中进化器与智能体的角色,表明一个小型进化器可以编写足够好的更新,而中端智能体最能从中受益。论文建议将最强的模型用作任务执行器,而非更新编写器。
推文讨论了关于自我改进代理的建议,并分享了在长期任务中使用编码代理的实验观察,指出更强的模型并不总是能产生更好的代理。
HALO利用RLM通过分析执行轨迹并建议改进来优化AI智能体集群,在Terminal-Bench和AppWorld等多个基准测试上实现了10%以上的提升。
文章探讨了 Sakana AI 和 Meta 关于自我改进型 AI 智能体的最新研究,具体涉及达尔文-哥德尔机器(Darwin-Gödel Machine)和超智能体(Hyperagents),它们能够自主重写自身代码和基础设施以提升性能,且无需人工干预。
Hermes Agent 通过观察自身表现、识别低效环节并改写技能,展示了自我改进能力,仅需两次迭代便实现了 3 倍的速度提升和 80% 的成本降低。
一篇论文提出了一种自我改进 AI 智能体的协议框架,支持可审计的改进提案、评估与回滚。