@omarsar0: 很好的提示。实际上,大致上就是这样让智能体自主运行数小时或数天的。使用 /goal 或 /loop 来继续……
摘要
一个分享让AI智能体自主长时间运行实用技巧的帖子,重点介绍Opus模型,涉及权限、动态工作流和验证方面的建议。
查看缓存全文
缓存时间: 2026/06/08 21:28
很棒的建议。
在实践中,让代理自主运行几小时甚至几天时,大致的操作方式如下:
- 使用
/goal或/loop持续执行任务。 - 验证环环节至关重要。
接下来几周,我们将在学院里深入探讨这方面内容。
加入我们:https://academy.dair.ai/events
我想额外补充一点,因为目前关于代理循环(agent loops)的热度有点过度。这种方法对于维护代码库以及那些易于验证的场景(换言之,你可以设定明确的、代理能够达成的条件)效果很好。然而,对于许多其他领域和实际用例来说,人工参与是必不可少的。因此,我认为更好的方式是设计既能支持自主运行,又能方便人类协作与输入的循环结构。这正是我最近在努力的方向——我认为应对“AI胡扯”很重要,我担心那些天真的循环纯粹依赖AI模型的能力(缺乏知识和世界理解)会产生这类低质量输出。
目前关于“循环”的讨论大多假设条件可以自动验证。当然,也可以将人工验证(比如升级触发机制)融入其中。但根据我使用编码代理循环的经验,如果提供了人工介入选项,代理往往会过度频繁地触发升级,因此这需要谨慎设置。
确实如此,这样子必然会生成大量粗糙的代码。
相似文章
@omarsar0: 随着我们针对长期任务中更复杂的编码代理使用(例如,动态工作流和 /goals),你会开始...
讨论了编码代理在复杂长期任务中的挑战,指出了奇怪的用户体验问题和低效的代理交互,并主张对代理框架拥有更多控制权。
@bcherny: 看到多个基准测试显示Opus是长期运行工作中的最佳模型。自主运行Opus的五个技巧……
关于如何让Anthropic的Claude Opus自主运行数小时或数天的实用技巧,例如使用自动模式、动态工作流和自我验证;还提到了用于长期软件任务的SWE-Marathon基准测试。
如何让代理运行数小时,以及哪些架构真正对代理友好?#深度探讨 #氛围程序员问题
作者探讨了AI编码代理的两个关键挑战:确保长时间自主执行(数小时)以及为本地应用设计对代理友好的架构。他们提出在规划和执行之前,增加一个显式的知识组织阶段来管理混乱的上下文。
@googledevs: 大多数智能体教程止步于无状态智能体。真正的工作流会持续数周。构建可暂停……
来自Google的教程,教你使用Agent Development Kit (ADK)构建能暂停数日、重启后恢复且不丢失上下文的长时间运行AI智能体,并附有代码和逐步指导,适用于新员工入职等企业工作流。
@omarsar0: 关于自我改进代理的非常好的建议。(收藏)这是我正在自己的实验中观察到的现象,关于编码...
推文讨论了关于自我改进代理的建议,并分享了在长期任务中使用编码代理的实验观察,指出更强的模型并不总是能产生更好的代理。