构建了用于生产/开发环境中 AI 代理的运行时 A/B 测试层——寻找 5-10 个团队来“折腾”它

Reddit r/AI_Agents 2026/05/13 08:23 工具

ai-agents ab-testing production-testing observability developer-tools experimentation

摘要

作者介绍了 Syrin，这是一款用于 AI 代理的运行时 A/B 测试工具，允许团队针对提示词、模型和代理拓扑结构对实时流量进行受控实验。他们正在寻找 5-10 个工程团队在生产环境中测试该工具并提供反馈。

在过去几个月里，我与 50 多个工程团队讨论了生产环境中 AI 代理的故障问题。反复出现的模式是：团队经常修改提示词并更换模型，但几乎没有人将这些变更作为受控实验来运行。当系统出现故障时，没有差异对比（diff）——只有生产故障和一堆可疑因素。工具链存在特定缺口：可观测性工具记录发生了什么，评估框架进行离线测试，但两者都无法在变更向 100% 用户推送之前，在真实生产流量上运行变体 A 与变体 B 的对比，并实现真正的变量隔离。这就是我们构建的东西。Syrin 能够在实时流量上针对系统提示词、模型、温度参数以及代理拓扑结构同时运行实验——并内置回滚触发器。我们正在寻找 **5 个在生产环境中积极运行多代理系统的团队**，免费使用它并告诉我们哪里出了问题。不提供服务等级协议（SLA），不提供保姆式指导——我们要找的是会狠狠压榨它并给出诚实反馈的人。如果你正花费时间调试无法隔离的回归问题，请留言或私信我。我很乐意进行 30 分钟的通话，看看是否合适。

查看原文

构建了用于生产/开发环境中 AI 代理的运行时 A/B 测试层——寻找 5-10 个团队来“折腾”它

相似文章

我受够了AI代理在生产环境中静默失败，于是为它们构建了一个运行时控制层

在部署之前，你们是如何测试智能体的？还是大家都在生产环境中凭感觉检查？

有没有人真正在生产环境中使用AI代理（面对真实用户，不是演示，也不是10个测试用户）？你的技术栈是什么？有没有人在尝试将代理用于生产后又回归传统代码——为什么？

如果你的AI代理能发邮件、浏览网站或调用工具，我有东西想请你测试一下

在AI智能体面向用户之前，你是如何测试其安全性的？我们受够了没有好的答案，于是自己开发了这个工具。

提交意见反馈