@bcherny: 看到多个基准测试显示Opus是长期运行工作中的最佳模型。自主运行Opus的五个技巧……

X AI KOLs Following 模型

摘要

关于如何让Anthropic的Claude Opus自主运行数小时或数天的实用技巧,例如使用自动模式、动态工作流和自我验证;还提到了用于长期软件任务的SWE-Marathon基准测试。

看到多个基准测试显示Opus是长期运行工作中的最佳模型。 自主运行Opus数小时或数天的五个技巧: 1. 使用自动模式处理权限,这样Claude就不需要请求批准 2. 使用动态工作流,让Claude协调成百上千个代理来完成一项任务 3. 使用/goal或/loop,推动Claude持续工作直到完成 4. 在云端使用Claude Code,这样你可以合上笔记本电脑(最简单的方式是使用桌面或移动应用) 5. 确保Claude有一种方法来自行验证其工作端到端:用于网络的Chrome浏览器扩展中的Claude,用于移动设备的iOS/Android sim MCP,以及用于后端工作的启动完整Web服务器或服务的方法
查看原文
查看缓存全文

缓存时间: 2026/06/08 15:23

看到不少基准测试显示,Opus 是处理长期工作的最佳模型。

以下五条技巧,可让 Opus 自主运行数小时甚至数天:

  1. 使用自动模式处理权限,这样 Claude 就不会每次都需要你批准。
  2. 使用动态工作流,让 Claude 编排成百上千个智能体来完成一项任务。
  3. 使用 /goal/loop 命令,推动 Claude 持续工作直到任务结束。
  4. 在云端使用 Claude Code,这样你就可以合上笔记本电脑(最简单的方法是使用桌面版或移动端应用)。
  5. 确保 Claude 有办法端到端地自我验证工作成果:在浏览器中使用 Claude 的 Chrome 扩展,移动端使用 iOS/Android 模拟器 MCP,后端工作则提供一种启动完整 Web 服务或服务的方式。

很棒!

在我个人看来,4.8 版本不存在“上下文腐烂”的问题,不过我也很好奇你的体验是否也是如此。

我最重要的发现是:自我验证 + 动态工作流,配合类似“使用工作流,通过 claude in chrome MCP 在浏览器中端到端测试结果。尤其要关注边界情况和 UI 问题”这样的提示。

我曾用超长会话做过的几件事:

  • 构建复杂功能
  • 将代码从 X 语言迁移到 Y
  • 将代码从 X 框架迁移到 Y
  • 反复分析和优化代码,以达到特定的内存或 CPU 目标
  • 在 CI 中查找和修复不稳定的测试用例
  • 分析 CI 使其更快

我衡量这个投入产出比,而不是绝对成本:手工完成同样的工作需要多少成本?通常答案是数周甚至数月的工程师时间。

这些技能不是设计用来让用户手动调用的,不过你想的话也可以。只要告诉模型你想要什么,它自己就会去调用正确的技能。

我在 Opus 4.8 上已经见不到这种情况了,你呢?

运行 /usage 可以查看具体的技能、MCP 和插件分别消耗了多少你的令牌(token)。

直接告诉 Claude 使用工作流即可。

是的。它更强大,也更节省令牌(token)。

企业版的席位限制是可以配置的,或许你可以问问管理员提高一下限额?

我们两种方式都用!这取决于是一次性任务,还是你想在未来的 PR 中重复使用。

@bcherny 很多人试图通过编排层来实现这一点。你们打算什么时候做一个覆盖/监管智能体,用来监控、调度、汇总并管理其他会话?

代理视图(Agent View)很好用,但需要在不同会话之间跳来跳去让人很烦——尤其是活跃会话静悄悄地变成了“已完成”,而不是显示“需要输入”的时候。

相似文章