@DeRonin_: 如何自然地构建你自己的自我改进智能体:一个自我改进的智能体从自己的错误中学习并重写……
摘要
一份实用指南,解释了构建自我改进AI智能体的三个层级,从手动循环到自动化设计,并推荐了工具和框架。
查看缓存全文
缓存时间: 2026/06/29 22:32
如何自然地构建你自己的自我改进型智能体:
一个自我改进型智能体从自身错误中学习并重写自己,而不只是依赖论文
按层次划分的搭建方法:
第一级:手动自我改进循环
所需技能:基础 Python 或无需编码的评估工具 交付时间:基础版 1 个周末,实际可用 1-2 周
为你的智能体准备 50-100 个真实任务测试用例 定义什么是“好“(准确率、格式、工具调用) 用 LLM 作为裁判给每个输出打分 1-10 失败的案例触发提示词重写 循环 5-10 次,保留最佳版本
跳过繁琐步骤的工具:Promptfoo、Inspect AI、Braintrust、LangSmith
第二级:DSPy 框架(斯坦福 NLP,开源)
所需技能:扎实的 Python + 1 周学习框架 交付时间:首次流水线 1-2 周,之后每次 2-3 天
声明式定义智能体,无需手写提示词 通过 MIPROv2 / BootstrapFewShot 自动编译提示词 原生支持多步骤、RAG 和工具调用 已在 Databricks、JetBlue 生产环境中使用
第三级:自动化智能体设计(ADAS、AutoAgent 等)
所需技能:机器学习工程背景 + 100-1000 美元算力预算 交付时间:2-4 周搭建环境后开始有意义改进
智能体本身成为搜索空间 生成沙盒环境、变异架构、读取自身失败案例 ADAS 论文(Hu 等人,2024)在编码、数学、推理任务上超越手工构建的基线 AutoAgent 等代码库存在,但搭建仍需研究级能力
附注:关于这一级,我将发布详细文章,届时无需 ML 背景也能上手
这就是这篇论文的基础。它不再只是理论。
论文的具体贡献(共同演化评估器)可附加到任何层次之上:
轮换使用来自不同模型的 3 个裁判(防止博弈) 课程学习:从简单到困难的测试集 裁判生成新的失败测试(对抗性生成)
从第一级开始,你花一个周末运行自己的循环所学到的,比读 5 篇论文还要多。
下方(第二条推文)是每个工具、代码库和论文的直接链接 ↓
各层次的直接链接:
第一级——评估工具:
Promptfoo → http://promptfoo.dev Inspect AI → http://inspect.aisi.org.uk Braintrust → http://braintrust.dev LangSmith → http://smith.langchain.com Anthropic eval cookbook → http://github.com/anthropics/anthropic-cookbook…
第二级——DSPy:
文档 → http://dspy.ai GitHub → http://github.com/stanfordnlp/dspy… MIPROv2 论文 → http://arxiv.org/abs/2406.11695
第三级——ADAS / AutoAgent:
ADAS 论文 → http://arxiv.org/abs/2408.08435 ADAS 代码 → http://github.com/ShengranHu/ADAS AutoAgent → http://github.com/HKUDS/AutoAgent
收藏这个,你会用到的。
另外,在此基础上,我准备了一份非常详细的指南,教任何人如何搭建这样的系统,即使没有 ML 背景。
这会很有用。
是啊,我已经跟这东西折腾了两周了……
希望一开始只有 3000-3500 次阅读量,
其余的靠自然增长。
相似文章
@svpino: 如何构建一个随时间不断改进的智能体:智能体可以从三个方面学习:1. 模型:仅适用于……
Santiago Valdarrama 分享了一个构建 AI 智能体的框架,该框架通过三个学习领域(模型优化、工具链优化和上下文积累)来让智能体随时间不断改进,并强调了从用户修正中学习的重要性。
@qinzytech: https://x.com/qinzytech/status/2066585405479371092
对构建自我进化AI代理的两种方法的技术分析:基于模型的方法(通过像SSMs或具有快速权重更新的transformer等架构,以及训练方法)和基于工具的方法(通过内存或能够自我重写的元工具)。作者为不同受众提供了实用建议。
@omarsar0: 关于自我改进代理的非常好的建议。(收藏)这是我正在自己的实验中观察到的现象,关于编码...
推文讨论了关于自我改进代理的建议,并分享了在长期任务中使用编码代理的实验观察,指出更强的模型并不总是能产生更好的代理。
@Mnilax:谷歌和斯坦福的工程师刚刚发布了一份39页的PDF,内容是关于什么真正让AI agent自我改进的。输入→输出…
谷歌和斯坦福的工程师发布的一份39页论文分析了使AI agent通过反馈循环自我改进的关键因素,并指出只有9%的agent实际运行了真正的循环。
@shmidtqq: OpenAI发布了一份34页的构建AI智能体指南。整份指南归结为一个理念:智能体就是一个循环。运行模型…
OpenAI发布了一份34页的构建AI智能体指南,强调智能体本质上是一个循环:运行模型、调用工具、反馈结果、重复直到满足退出条件。指南涵盖了工具、护栏以及从单个循环开始再扩展到多个智能体的方法。