构建了用于生产/开发环境中 AI 代理的运行时 A/B 测试层——寻找 5-10 个团队来“折腾”它
摘要
作者介绍了 Syrin,这是一款用于 AI 代理的运行时 A/B 测试工具,允许团队针对提示词、模型和代理拓扑结构对实时流量进行受控实验。他们正在寻找 5-10 个工程团队在生产环境中测试该工具并提供反馈。
在过去几个月里,我与 50 多个工程团队讨论了生产环境中 AI 代理的故障问题。反复出现的模式是:团队经常修改提示词并更换模型,但几乎没有人将这些变更作为受控实验来运行。当系统出现故障时,没有差异对比(diff)——只有生产故障和一堆可疑因素。工具链存在特定缺口:可观测性工具记录发生了什么,评估框架进行离线测试,但两者都无法在变更向 100% 用户推送之前,在真实生产流量上运行变体 A 与变体 B 的对比,并实现真正的变量隔离。这就是我们构建的东西。Syrin 能够在实时流量上针对系统提示词、模型、温度参数以及代理拓扑结构同时运行实验——并内置回滚触发器。我们正在寻找 **5 个在生产环境中积极运行多代理系统的团队**,免费使用它并告诉我们哪里出了问题。不提供服务等级协议(SLA),不提供保姆式指导——我们要找的是会狠狠压榨它并给出诚实反馈的人。如果你正花费时间调试无法隔离的回归问题,请留言或私信我。我很乐意进行 30 分钟的通话,看看是否合适。
相似文章
有没有人真正在生产环境中使用AI代理(面对真实用户,不是演示,也不是10个测试用户)?你的技术栈是什么?有没有人在尝试将代理用于生产后又回归传统代码——为什么?
一个讨论贴,询问关于拥有100+用户的真实AI代理部署情况,涉及技术栈和扩展问题,以及回归传统代码的经验。
如果你的AI代理能发邮件、浏览网站或调用工具,我有东西想请你测试一下
Arc Gate是一个AI代理安全工具,它追踪整个对话以检测跨多轮对话的对抗性行为漂移,与传统的逐条消息检查不同。作者正在寻找拥有真实代理工作流程的团队来测试它。
AI代理在重复工作上浪费代币。我构建了一个解决方案,需要测试者。
一位开发者构建了一个系统,通过跨任务复用信息来减少AI代理工作流中的代币浪费,现正在寻找测试者提供反馈。
可信赖的智能代理AI层
作者正在构建Synapsor,一个面向AI代理的测试版工具,提供受管内存、分阶段写入、回放、权限和审计追踪,并正在寻求代理开发者的反馈。
有人想了解先进公司是如何在实际生产环境中运行AI代理的吗?
作者在一家AI基础设施公司工作,观察到在实际生产环境中运行AI代理更多是关于环境、访问控制、隔离和安全状态管理,而非模型本身,并询问社区是否想要详细的架构模式。