@DeRonin_: 如何自然地构建你自己的自我改进智能体:一个自我改进的智能体从自己的错误中学习并重写……

X AI KOLs Timeline 新闻

摘要

一份实用指南,解释了构建自我改进AI智能体的三个层级,从手动循环到自动化设计,并推荐了工具和框架。

如何自然地构建你自己的自我改进智能体: 一个自我改进的智能体从自己的错误中学习并重写自身,而不仅仅是论文 按级别设置: 第1级:手动自我改进循环 需要:基础Python或免代码评估工具 交付时间:基础功能1个周末,实际成果1-2周 > 为你智能体的实际任务准备50-100个测试用例 > 定义什么是“好”(准确率、格式、工具调用) > 以LLM作为评判者,对每个输出打分1-10 > 失败案例用于提示重写 > 循环5-10次,保留最佳结果 可跳过模板代码的工具:Promptfoo, Inspect AI, Braintrust, LangSmith 第2级:DSPy框架(斯坦福NLP,开源) 需要:扎实的Python + 1周学习框架 交付时间:首个管道1-2周,之后2-3天 > 声明你的智能体,不要手写提示 > 通过MIPROv2 / BootstrapFewShot自动编译提示 > 原生支持多步骤、RAG和工具 > 已在Databricks、JetBlue投入生产 第3级:自动化智能体设计(ADAS, AutoAgent等) 需要:机器学习工程背景 + 100-1000美元计算预算 交付时间:需2-4周设置才能看到有意义的改进 > 智能体本身成为搜索空间 > 生成沙盒,变异架构,读取自身失败 > ADAS论文(Hu et al, 2024)在编码、数学、推理上击败了手工构建的基线 > AutoAgent等类似仓库存在,但设置是研究级别的 *附注:关于这个级别,我将发布一篇详细文章,替代机器学习背景 这就是论文所基于的内容。它不再是理论 论文的具体贡献(共同进化评估器)可附加到任何级别: > 轮流使用来自不同模型的3个评判者(反作弊) > 课程学习:从易到难的测试集 > 评判者生成新的失败测试(对抗性生成) 从第1级开始,花一个周末运行自己的循环,比再读5篇论文学到的更多 所有工具、仓库和论文的直接链接见下(第二条推文)↓
查看原文
查看缓存全文

缓存时间: 2026/06/29 22:32

如何自然地构建你自己的自我改进型智能体:

一个自我改进型智能体从自身错误中学习并重写自己,而不只是依赖论文

按层次划分的搭建方法:

第一级:手动自我改进循环

所需技能:基础 Python 或无需编码的评估工具 交付时间:基础版 1 个周末,实际可用 1-2 周

为你的智能体准备 50-100 个真实任务测试用例 定义什么是“好“(准确率、格式、工具调用) 用 LLM 作为裁判给每个输出打分 1-10 失败的案例触发提示词重写 循环 5-10 次,保留最佳版本

跳过繁琐步骤的工具:Promptfoo、Inspect AI、Braintrust、LangSmith

第二级:DSPy 框架(斯坦福 NLP,开源)

所需技能:扎实的 Python + 1 周学习框架 交付时间:首次流水线 1-2 周,之后每次 2-3 天

声明式定义智能体,无需手写提示词 通过 MIPROv2 / BootstrapFewShot 自动编译提示词 原生支持多步骤、RAG 和工具调用 已在 Databricks、JetBlue 生产环境中使用

第三级:自动化智能体设计(ADAS、AutoAgent 等)

所需技能:机器学习工程背景 + 100-1000 美元算力预算 交付时间:2-4 周搭建环境后开始有意义改进

智能体本身成为搜索空间 生成沙盒环境、变异架构、读取自身失败案例 ADAS 论文(Hu 等人,2024)在编码、数学、推理任务上超越手工构建的基线 AutoAgent 等代码库存在,但搭建仍需研究级能力

附注:关于这一级,我将发布详细文章,届时无需 ML 背景也能上手

这就是这篇论文的基础。它不再只是理论。

论文的具体贡献(共同演化评估器)可附加到任何层次之上:

轮换使用来自不同模型的 3 个裁判(防止博弈) 课程学习:从简单到困难的测试集 裁判生成新的失败测试(对抗性生成)

从第一级开始,你花一个周末运行自己的循环所学到的,比读 5 篇论文还要多。

下方(第二条推文)是每个工具、代码库和论文的直接链接 ↓

各层次的直接链接:

第一级——评估工具:

Promptfoo → http://promptfoo.dev Inspect AI → http://inspect.aisi.org.uk Braintrust → http://braintrust.dev LangSmith → http://smith.langchain.com Anthropic eval cookbook → http://github.com/anthropics/anthropic-cookbook…

第二级——DSPy:

文档 → http://dspy.ai GitHub → http://github.com/stanfordnlp/dspy… MIPROv2 论文 → http://arxiv.org/abs/2406.11695

第三级——ADAS / AutoAgent:

ADAS 论文 → http://arxiv.org/abs/2408.08435 ADAS 代码 → http://github.com/ShengranHu/ADAS AutoAgent → http://github.com/HKUDS/AutoAgent

收藏这个,你会用到的。

另外,在此基础上,我准备了一份非常详细的指南,教任何人如何搭建这样的系统,即使没有 ML 背景。

这会很有用。

是啊,我已经跟这东西折腾了两周了……

希望一开始只有 3000-3500 次阅读量,

其余的靠自然增长。

相似文章

@qinzytech: https://x.com/qinzytech/status/2066585405479371092

X AI KOLs Timeline

对构建自我进化AI代理的两种方法的技术分析:基于模型的方法(通过像SSMs或具有快速权重更新的transformer等架构,以及训练方法)和基于工具的方法(通过内存或能够自我重写的元工具)。作者为不同受众提供了实用建议。