@DeRonin_: 你理解Adaline刚刚发布了什么吗???智能体观察真实用户出了什么问题..对失败进行分组…

X AI KOLs Timeline 产品

摘要

Adaline 2.0 是一个智能体自我改进层,它观察真实用户交互,按模式对失败进行聚类,每天自动编写数百个测试,并在部署前生成新的智能体候选版本供审批。

你理解Adaline刚刚发布了什么吗???智能体观察真实用户出了什么问题..按模式对失败进行分组..并且每天编写数百个自己的测试来捕捉它们 [ 没人谈论的真正问题 ]: 你的智能体每天有数千次真实对话,你这个月可能只读了其中12个 每一个错误,每一个奇怪的回答,每一次它慢慢变差..全都堆在那里没人打开 每个人都想要更智能的模型。没有人有时间真正去看智能体在做什么 [ 它实际是如何工作的 ]: > 读取每一条消息、工具调用、技能、钩子、插件 > 将轨迹聚类为实际的智能体行为 > 生成没有团队会想到去测试的合成对抗案例 > 每天从你的真实生产流量中编写数百个新的评估 > 构建候选智能体并交付给你审批 评估是每个人都绕过的层 [ 我没想到的是 ]: 没有东西会自行上线 智能体构建自己的新版本..你在用户看到之前审批每一个 它会自动变得更好,但你始终掌控着 [ 真正击中我的是 ]: "模型不再拖慢事情了。是你拖慢了" 那正是我 我已经8个月没看过我智能体的数据了。这是第一个最终解决了这个问题的东西。
查看原文
查看缓存全文

缓存时间: 2026/06/13 18:20

你知道Adaline刚刚发布了什么吗???这个智能体会观察真实用户哪里出问题… 按模式对失败进行分组… 然后每天自动编写数百个测试来捕获它们 [真正没人谈论的问题]:你的智能体每天处理数千次真实对话,这个月你大概只读了12条。每一个错误、每一个奇怪的回答、每一次逐渐变差的过程… 全都堆在没人打开的角落里。人人都想要更聪明的模型。没人有时间真正去看看智能体们在做什么。 [实际工作原理]: > 读取每一条消息、工具调用、技能、钩子、插件 > 将痕迹聚类为实际的智能体行为 > 生成团队根本想不到要测试的合成对抗案例 > 每天从你的真实生产流量中生成数百个全新评估 > 构建候选智能体并发送给你审批 评估曾是每个人都绕开的层级。 [我没想到的是]:没有东西会自行上线——智能体会构建自己的新版本…而你逐一审批后才让用户看到。它会自动变得更好,但你始终握有控制权。 [真正触动我的是]:“模型不再是瓶颈了。你才是。” 这说的就是我——我已经8个月没看过自己智能体的数据了。这是第一个终于解决了这个问题的东西。

Arsh Shah Dilbagi (@arshdilbagi): 隆重推出 Adaline 2.0 —— 智能体自我改进层

Adaline 将痕迹转化为行为, 行为暴露问题, 问题变成自动生成的评估+数据, Adaline 再生成新的候选智能体并测试它们。

你审查胜出的候选,然后发布!

相似文章