构建了用于生产/开发环境中 AI 代理的运行时 A/B 测试层——寻找 5-10 个团队来“折腾”它

Reddit r/AI_Agents 工具

摘要

作者介绍了 Syrin,这是一款用于 AI 代理的运行时 A/B 测试工具,允许团队针对提示词、模型和代理拓扑结构对实时流量进行受控实验。他们正在寻找 5-10 个工程团队在生产环境中测试该工具并提供反馈。

在过去几个月里,我与 50 多个工程团队讨论了生产环境中 AI 代理的故障问题。反复出现的模式是:团队经常修改提示词并更换模型,但几乎没有人将这些变更作为受控实验来运行。当系统出现故障时,没有差异对比(diff)——只有生产故障和一堆可疑因素。工具链存在特定缺口:可观测性工具记录发生了什么,评估框架进行离线测试,但两者都无法在变更向 100% 用户推送之前,在真实生产流量上运行变体 A 与变体 B 的对比,并实现真正的变量隔离。这就是我们构建的东西。Syrin 能够在实时流量上针对系统提示词、模型、温度参数以及代理拓扑结构同时运行实验——并内置回滚触发器。我们正在寻找 **5 个在生产环境中积极运行多代理系统的团队**,免费使用它并告诉我们哪里出了问题。不提供服务等级协议(SLA),不提供保姆式指导——我们要找的是会狠狠压榨它并给出诚实反馈的人。如果你正花费时间调试无法隔离的回归问题,请留言或私信我。我很乐意进行 30 分钟的通话,看看是否合适。
查看原文

相似文章

可信赖的智能代理AI层

Reddit r/AI_Agents

作者正在构建Synapsor,一个面向AI代理的测试版工具,提供受管内存、分阶段写入、回放、权限和审计追踪,并正在寻求代理开发者的反馈。