@DeRonin_: 你理解Adaline刚刚发布了什么吗？？？智能体观察真实用户出了什么问题..对失败进行分组…

X AI KOLs Timeline 2026/06/13 16:29 产品

agent-self-improvement evals testing ai-agents adaline monitoring production

摘要

Adaline 2.0 是一个智能体自我改进层，它观察真实用户交互，按模式对失败进行聚类，每天自动编写数百个测试，并在部署前生成新的智能体候选版本供审批。

你理解Adaline刚刚发布了什么吗？？？智能体观察真实用户出了什么问题..按模式对失败进行分组..并且每天编写数百个自己的测试来捕捉它们 [ 没人谈论的真正问题 ]: 你的智能体每天有数千次真实对话，你这个月可能只读了其中12个每一个错误，每一个奇怪的回答，每一次它慢慢变差..全都堆在那里没人打开每个人都想要更智能的模型。没有人有时间真正去看智能体在做什么 [ 它实际是如何工作的 ]: > 读取每一条消息、工具调用、技能、钩子、插件 > 将轨迹聚类为实际的智能体行为 > 生成没有团队会想到去测试的合成对抗案例 > 每天从你的真实生产流量中编写数百个新的评估 > 构建候选智能体并交付给你审批评估是每个人都绕过的层 [ 我没想到的是 ]: 没有东西会自行上线智能体构建自己的新版本..你在用户看到之前审批每一个它会自动变得更好，但你始终掌控着 [ 真正击中我的是 ]: "模型不再拖慢事情了。是你拖慢了" 那正是我我已经8个月没看过我智能体的数据了。这是第一个最终解决了这个问题的东西。

查看原文

查看缓存全文

缓存时间: 2026/06/13 18:20

你知道Adaline刚刚发布了什么吗？？？这个智能体会观察真实用户哪里出问题… 按模式对失败进行分组… 然后每天自动编写数百个测试来捕获它们 [真正没人谈论的问题]：你的智能体每天处理数千次真实对话，这个月你大概只读了12条。每一个错误、每一个奇怪的回答、每一次逐渐变差的过程… 全都堆在没人打开的角落里。人人都想要更聪明的模型。没人有时间真正去看看智能体们在做什么。 [实际工作原理]： > 读取每一条消息、工具调用、技能、钩子、插件 > 将痕迹聚类为实际的智能体行为 > 生成团队根本想不到要测试的合成对抗案例 > 每天从你的真实生产流量中生成数百个全新评估 > 构建候选智能体并发送给你审批评估曾是每个人都绕开的层级。 [我没想到的是]：没有东西会自行上线——智能体会构建自己的新版本…而你逐一审批后才让用户看到。它会自动变得更好，但你始终握有控制权。 [真正触动我的是]：“模型不再是瓶颈了。你才是。” 这说的就是我——我已经8个月没看过自己智能体的数据了。这是第一个终于解决了这个问题的东西。

Arsh Shah Dilbagi (@arshdilbagi): 隆重推出 Adaline 2.0 —— 智能体自我改进层

Adaline 将痕迹转化为行为，行为暴露问题，问题变成自动生成的评估+数据， Adaline 再生成新的候选智能体并测试它们。

你审查胜出的候选，然后发布！

@DeRonin_: 你理解Adaline刚刚发布了什么吗？？？智能体观察真实用户出了什么问题..对失败进行分组…

相似文章

我构建了一个用于创建和管理AI代理的开源平台（MIT许可，可免费自托管）

AI代理基准测试是否应区分“安全成功”与“不安全成功”？

当你的智能体在生产环境中出错时，如何定位哪一步出了问题？

@omarsar0: https://x.com/omarsar0/status/2065880971031834786

@matei_zaharia: 非常兴奋地开源一个新项目：Omnigent，一个AI代理的元框架。它让你能够构建多代理编码…

提交意见反馈