@bcherny: 看到多个基准测试显示Opus是长期运行工作中的最佳模型。自主运行Opus的五个技巧……
摘要
关于如何让Anthropic的Claude Opus自主运行数小时或数天的实用技巧,例如使用自动模式、动态工作流和自我验证;还提到了用于长期软件任务的SWE-Marathon基准测试。
查看缓存全文
缓存时间: 2026/06/08 15:23
看到不少基准测试显示,Opus 是处理长期工作的最佳模型。
以下五条技巧,可让 Opus 自主运行数小时甚至数天:
- 使用自动模式处理权限,这样 Claude 就不会每次都需要你批准。
- 使用动态工作流,让 Claude 编排成百上千个智能体来完成一项任务。
- 使用
/goal或/loop命令,推动 Claude 持续工作直到任务结束。 - 在云端使用 Claude Code,这样你就可以合上笔记本电脑(最简单的方法是使用桌面版或移动端应用)。
- 确保 Claude 有办法端到端地自我验证工作成果:在浏览器中使用 Claude 的 Chrome 扩展,移动端使用 iOS/Android 模拟器 MCP,后端工作则提供一种启动完整 Web 服务或服务的方式。
很棒!
在我个人看来,4.8 版本不存在“上下文腐烂”的问题,不过我也很好奇你的体验是否也是如此。
我最重要的发现是:自我验证 + 动态工作流,配合类似“使用工作流,通过 claude in chrome MCP 在浏览器中端到端测试结果。尤其要关注边界情况和 UI 问题”这样的提示。
我曾用超长会话做过的几件事:
- 构建复杂功能
- 将代码从 X 语言迁移到 Y
- 将代码从 X 框架迁移到 Y
- 反复分析和优化代码,以达到特定的内存或 CPU 目标
- 在 CI 中查找和修复不稳定的测试用例
- 分析 CI 使其更快
我衡量这个投入产出比,而不是绝对成本:手工完成同样的工作需要多少成本?通常答案是数周甚至数月的工程师时间。
这些技能不是设计用来让用户手动调用的,不过你想的话也可以。只要告诉模型你想要什么,它自己就会去调用正确的技能。
我在 Opus 4.8 上已经见不到这种情况了,你呢?
运行 /usage 可以查看具体的技能、MCP 和插件分别消耗了多少你的令牌(token)。
直接告诉 Claude 使用工作流即可。
是的。它更强大,也更节省令牌(token)。
企业版的席位限制是可以配置的,或许你可以问问管理员提高一下限额?
我们两种方式都用!这取决于是一次性任务,还是你想在未来的 PR 中重复使用。
@bcherny 很多人试图通过编排层来实现这一点。你们打算什么时候做一个覆盖/监管智能体,用来监控、调度、汇总并管理其他会话?
代理视图(Agent View)很好用,但需要在不同会话之间跳来跳去让人很烦——尤其是活跃会话静悄悄地变成了“已完成”,而不是显示“需要输入”的时候。
相似文章
@omarsar0: 很好的提示。实际上,大致上就是这样让智能体自主运行数小时或数天的。使用 /goal 或 /loop 来继续……
一个分享让AI智能体自主长时间运行实用技巧的帖子,重点介绍Opus模型,涉及权限、动态工作流和验证方面的建议。
Claude Opus 4.8 于5月28日发布,其一项特性揭示了AI真正的发展方向。它现在可以将一个任务拆解为数十个并行工作流并同时运行。
Anthropic 发布了具有动态工作流(Dynamic Workflows)功能的 Claude Opus 4.8,支持并行任务执行,并改进了判断能力,可标出不确定性,从而从工具转变为协作者。
@orca_build: Anthropic的新款Opus 4.8在Terminal-Bench 2.1上的得分比GPT 5.5低3.6%……但在UI任务上明显更出色。
Anthropic的Opus 4.8在Terminal-Bench 2.1上比GPT 5.5低3.6%,但擅长UI任务;Orca的编排功能让Codex能将UI任务委托给Claude Code。
@bcherny: 人们经常问我,充分利用 Claude Code 的最大秘诀是什么。现在我最重要的建议就是:使用自动模式…
Boris Cherny 推荐在 Claude Code 中使用自动模式来并行执行会话,同时 ClaudeDevs 宣布自动模式现已面向 Pro 计划用户开放,并支持 Sonnet 4.6 和 Opus 4.7。
@RayFernando1337:在多任务工作流中使用 Cursor 的 Opus 4.8 Max Thinking,在长上下文理解、速度和实现……
一位开发者分享了他使用 Cursor 的子代理工具与 Opus 4.8 Max Thinking 进行长上下文理解和在 Swift 中实现大型功能的工作流程,强调了动手规划和分阶段验收测试。