将本地代理转变为自我优化代理
摘要
一个自我优化的智能体管线,在TerminalBench上将基准性能从约30%提升至约90%,并且可以通过记录交互、使用本地模型进行反思、以及将经验注入未来的系统提示中,扩展应用到日常对话场景。
我在试验一个自我优化的代理管道,用来冲击基准排行榜(TerminalBench)。在 10 个任务的子集上,性能从约 30% 提升到了约 90%。这个循环奏效了,于是我问自己:同样的反思-重写步骤能否持续应用于日常聊天,而不是只针对基准测试?
**工作原理**
* 每次与本地 LLM 的聊天都会经过一个小型代理并被记录下来。
* `autoswarm reflect` 让同一个本地模型审查这些日志,提炼出具体的教训,并将其写入 `skills.yaml`。
* 这些教训会自动注入到未来聊天的系统提示中。
**运行方式(LM Studio 路径)**
1. 启动 LM Studio 的本地服务器,并加载一个模型。
2. ```bash
pip install -e .
autoswarm doctor # 验证 LM Studio 是否可达
autoswarm start # 自动检测上游和模型,监听在 :8080
```
我对自我优化代理的想法非常着迷,并且相信这背后有**更大的东西值得挖掘**。不过,这只是一个业余项目,我仍在试验中。欢迎反馈!
链接:[https://github.com/arteemg/autoswarm](https://github.com/arteemg/autoswarm)
我目前在积极开发这个项目,请 [**⭐ 收藏该仓库**](https://github.com/arteemg/autoswarm/) 以获取最新更新。
相似文章
一种基于观测上下文压缩的高效终端智能体自我演化框架
TACO 提出了一种自我演化压缩框架,可自动学习压缩冗余的终端交互历史,在 TerminalBench 及其他代码智能体基准上将 token 开销降低约 10%,准确率提升 1–4%。
Terminal-World: 通过智能体技能扩展终端代理环境
Terminal-World 引入了一个全自动流水线,利用智能体技能为终端代理合成高质量的训练数据,使得模型仅使用 1.2% 的训练数据就能超越基线。该方法从技能原语中共同推导出任务指令、环境和教师轨迹。
@omarsar0: 关于自我改进代理的非常好的建议。(收藏)这是我正在自己的实验中观察到的现象,关于编码...
推文讨论了关于自我改进代理的建议,并分享了在长期任务中使用编码代理的实验观察,指出更强的模型并不总是能产生更好的代理。
@ttunguz:我一直在用最先进的模型训练我电脑上的小模型如何像我一样工作。结果:一个人...
使用大型AI模型训练较小的本地模型,作者构建了一个管理邮件、日历、交易、博客和研究的个人助手。
LiteCoder-Terminal:扩展用于学习语言智能体的长程终端环境
LiteCoder-Terminal-Gen 引入了一种零依赖的合成管道,可生成可执行的终端训练环境,并产出 SFT 和 RL 数据集,使语言智能体在 Terminal Bench 基准测试上取得显著的性能提升。