@DeRonin_: 如何自然地构建你自己的自我改进智能体：一个自我改进的智能体从自己的错误中学习并重写……

X AI KOLs Timeline 2026/06/29 17:01 新闻

self-improving-agents agentic-loops dspy prompt-engineering ai-agents eval-tools

摘要

一份实用指南，解释了构建自我改进AI智能体的三个层级，从手动循环到自动化设计，并推荐了工具和框架。

如何自然地构建你自己的自我改进智能体：一个自我改进的智能体从自己的错误中学习并重写自身，而不仅仅是论文按级别设置：第1级：手动自我改进循环需要：基础Python或免代码评估工具交付时间：基础功能1个周末，实际成果1-2周 > 为你智能体的实际任务准备50-100个测试用例 > 定义什么是“好”（准确率、格式、工具调用） > 以LLM作为评判者，对每个输出打分1-10 > 失败案例用于提示重写 > 循环5-10次，保留最佳结果可跳过模板代码的工具：Promptfoo, Inspect AI, Braintrust, LangSmith 第2级：DSPy框架（斯坦福NLP，开源）需要：扎实的Python + 1周学习框架交付时间：首个管道1-2周，之后2-3天 > 声明你的智能体，不要手写提示 > 通过MIPROv2 / BootstrapFewShot自动编译提示 > 原生支持多步骤、RAG和工具 > 已在Databricks、JetBlue投入生产第3级：自动化智能体设计（ADAS, AutoAgent等）需要：机器学习工程背景 + 100-1000美元计算预算交付时间：需2-4周设置才能看到有意义的改进 > 智能体本身成为搜索空间 > 生成沙盒，变异架构，读取自身失败 > ADAS论文（Hu et al, 2024）在编码、数学、推理上击败了手工构建的基线 > AutoAgent等类似仓库存在，但设置是研究级别的 *附注：关于这个级别，我将发布一篇详细文章，替代机器学习背景这就是论文所基于的内容。它不再是理论论文的具体贡献（共同进化评估器）可附加到任何级别： > 轮流使用来自不同模型的3个评判者（反作弊） > 课程学习：从易到难的测试集 > 评判者生成新的失败测试（对抗性生成）从第1级开始，花一个周末运行自己的循环，比再读5篇论文学到的更多所有工具、仓库和论文的直接链接见下（第二条推文）↓

查看原文

查看缓存全文

缓存时间: 2026/06/29 22:32

如何自然地构建你自己的自我改进型智能体：

一个自我改进型智能体从自身错误中学习并重写自己，而不只是依赖论文

按层次划分的搭建方法：

第一级：手动自我改进循环

所需技能：基础 Python 或无需编码的评估工具交付时间：基础版 1 个周末，实际可用 1-2 周

为你的智能体准备 50-100 个真实任务测试用例定义什么是“好“（准确率、格式、工具调用）用 LLM 作为裁判给每个输出打分 1-10 失败的案例触发提示词重写循环 5-10 次，保留最佳版本

跳过繁琐步骤的工具：Promptfoo、Inspect AI、Braintrust、LangSmith

第二级：DSPy 框架（斯坦福 NLP，开源）

所需技能：扎实的 Python + 1 周学习框架交付时间：首次流水线 1-2 周，之后每次 2-3 天

声明式定义智能体，无需手写提示词通过 MIPROv2 / BootstrapFewShot 自动编译提示词原生支持多步骤、RAG 和工具调用已在 Databricks、JetBlue 生产环境中使用

第三级：自动化智能体设计（ADAS、AutoAgent 等）

所需技能：机器学习工程背景 + 100-1000 美元算力预算交付时间：2-4 周搭建环境后开始有意义改进

智能体本身成为搜索空间生成沙盒环境、变异架构、读取自身失败案例 ADAS 论文（Hu 等人，2024）在编码、数学、推理任务上超越手工构建的基线 AutoAgent 等代码库存在，但搭建仍需研究级能力

附注：关于这一级，我将发布详细文章，届时无需 ML 背景也能上手

这就是这篇论文的基础。它不再只是理论。

论文的具体贡献（共同演化评估器）可附加到任何层次之上：

轮换使用来自不同模型的 3 个裁判（防止博弈）课程学习：从简单到困难的测试集裁判生成新的失败测试（对抗性生成）

从第一级开始，你花一个周末运行自己的循环所学到的，比读 5 篇论文还要多。

下方（第二条推文）是每个工具、代码库和论文的直接链接 ↓

各层次的直接链接：

第一级——评估工具：

Promptfoo → http://promptfoo.dev Inspect AI → http://inspect.aisi.org.uk Braintrust → http://braintrust.dev LangSmith → http://smith.langchain.com Anthropic eval cookbook → http://github.com/anthropics/anthropic-cookbook…

第二级——DSPy：

文档 → http://dspy.ai GitHub → http://github.com/stanfordnlp/dspy… MIPROv2 论文 → http://arxiv.org/abs/2406.11695

第三级——ADAS / AutoAgent：

ADAS 论文 → http://arxiv.org/abs/2408.08435 ADAS 代码 → http://github.com/ShengranHu/ADAS AutoAgent → http://github.com/HKUDS/AutoAgent

收藏这个，你会用到的。

另外，在此基础上，我准备了一份非常详细的指南，教任何人如何搭建这样的系统，即使没有 ML 背景。

这会很有用。

是啊，我已经跟这东西折腾了两周了……

希望一开始只有 3000-3500 次阅读量，

其余的靠自然增长。

@DeRonin_: 如何自然地构建你自己的自我改进智能体：一个自我改进的智能体从自己的错误中学习并重写……

相似文章

@svpino: 如何构建一个随时间不断改进的智能体：智能体可以从三个方面学习：1. 模型：仅适用于……

@qinzytech: https://x.com/qinzytech/status/2066585405479371092

@omarsar0: 关于自我改进代理的非常好的建议。（收藏）这是我正在自己的实验中观察到的现象，关于编码...

@Mnilax：谷歌和斯坦福的工程师刚刚发布了一份39页的PDF，内容是关于什么真正让AI agent自我改进的。输入→输出…

@shmidtqq: OpenAI发布了一份34页的构建AI智能体指南。整份指南归结为一个理念：智能体就是一个循环。运行模型…

提交意见反馈