Agent工程中的枯燥部分

Reddit r/AI_Agents 2026/06/08 08:04 新闻

摘要

作者讨论了在生产中构建可靠AI Agent时那些不引人注目但至关重要的方面，包括监控运行中的进程、恢复失败的任务以及提供UI状态，并向社区询问常见的痛点和现成的解决方案。

Agent有趣的部分吸引了注意力，但我的大部分时间都花在了不那么引人注目的部分，即确保它们在生产中执行实际工作时不会崩溃。一直困扰我的事情是： * 实时查看运行中的任务在做什么，而不是事后从日志中重建 * 从失败处恢复运行，这样就不必重新执行已经成功但昂贵的模型调用 * 将进度输出到UI，而无需搭建一个单独的完整状态系统在多次遇到这些问题后，我开始构建一个小工具来处理运行方面的问题（链接在评论中，如果你感兴趣的话，非常欢迎建议），这样我们就不必在未来的所有项目中重复应用相同的模式（或者更痛苦的是，重构那些从一开始就没有考虑可靠性的项目）。说实话，大部分感觉像是经典的分布式系统问题，没什么新意。我不太确定的是，Agent是否真的改变了什么，因为步骤不是固定的图，而且其中一半是模型调用，无法干净地重放。我很好奇这在实践中是否重要，还是旧的经验法则仍然适用。我真的想知道两件事： 1. 对于每个Agent或长时间运行的任务，你最终会重新构建哪一部分？ 2. 有没有人找到现成的方案，能在生产环境中很好地处理这个问题？Temporal/DBOS/其他什么？

查看原文

Agent工程中的枯燥部分

相似文章

AI智能体中最无聊的部分：没人构建，人人都需要

我让智能体跑起来了，然后发现无聊的服务器杂事才是真正的问题

生产环境中的AI代理：演示中绝不会提及的失败模式

我分析了 50 多个 AI 团队如何调试生产环境中的智能体故障，结果令人意外

关于 AI 智能体的真实内情

提交意见反馈