我刚刚为了可靠性重写了整个代理基础设施，有人也这样做吗？

Reddit r/AI_Agents 2026/05/31 02:00 新闻

ai-agents agent-infrastructure reliability durable-execution engineering discussion

摘要

作者描述了在遭遇级联故障后，使用DBOS持久化执行重写其AI代理基础设施以提高可靠性的经历，并向社区询问类似的经历、工具选择以及自建与购买决策。

简单介绍一下背景：我目前在工作中正在创建一个AI代理团队，通过分散到大量子代理来处理大量转录数据来生成报告。当分析在中途因为某个步骤失败（比如API调用返回错误或机器内存不足）时，会产生级联错误，导致整个生成过程崩溃且几乎不可见。我刚刚花了一个月时间将各个任务重写为DBOS上的持久化执行任务，但想知道是否有更好的解决方案，以及其他人是否遇到过类似问题？还有向用户反馈进度的问题，我其实一直是在临时编码处理……当一个代理在第9步（共12步）失败时，你如何处理？你大概花了多少工程师周在代理基础设施（持久性、监控、人在循环、实时UI）上，而实际代理逻辑花了多少？我好奇我的比例是否正常。对于那些内部构建这些的人：是否曾有过自建与购买的讨论？一个工具需要具备什么条件才能让你选择购买而非自建？你目前是否为代理栈中的任何工具付费（如LangSmith、Temporal、Braintrust等）？是什么让这个工具值得成为一项支出而其他工具不值得？我是否也应该考虑它？

查看原文

我刚刚为了可靠性重写了整个代理基础设施，有人也这样做吗？

相似文章

贵公司使用哪个平台满足AI代理的可观测性和可靠性需求？

"在什么情况下添加另一个代理实际上会损害您的系统？问这个是因为我的6代理流水线比旧的2代理流水线更慢且更不可靠"

AI Agent开发

@djfarrelly: https://x.com/djfarrelly/status/2052779234234380479

当你从一个AI代理扩展到多个时，最先出问题的是什么？

提交意见反馈