@bcherny: 看到多个基准测试显示Opus是长期运行工作中的最佳模型。自主运行Opus的五个技巧……

X AI KOLs Following 2026/06/08 01:16 模型

claude-opus autonomous-agents long-running software-engineering tips coding-agents benchmark

摘要

关于如何让Anthropic的Claude Opus自主运行数小时或数天的实用技巧，例如使用自动模式、动态工作流和自我验证；还提到了用于长期软件任务的SWE-Marathon基准测试。

看到多个基准测试显示Opus是长期运行工作中的最佳模型。自主运行Opus数小时或数天的五个技巧： 1. 使用自动模式处理权限，这样Claude就不需要请求批准 2. 使用动态工作流，让Claude协调成百上千个代理来完成一项任务 3. 使用/goal或/loop，推动Claude持续工作直到完成 4. 在云端使用Claude Code，这样你可以合上笔记本电脑（最简单的方式是使用桌面或移动应用） 5. 确保Claude有一种方法来自行验证其工作端到端：用于网络的Chrome浏览器扩展中的Claude，用于移动设备的iOS/Android sim MCP，以及用于后端工作的启动完整Web服务器或服务的方法

查看原文

查看缓存全文

缓存时间: 2026/06/08 15:23

看到不少基准测试显示，Opus 是处理长期工作的最佳模型。

以下五条技巧，可让 Opus 自主运行数小时甚至数天：

使用自动模式处理权限，这样 Claude 就不会每次都需要你批准。
使用动态工作流，让 Claude 编排成百上千个智能体来完成一项任务。
使用 /goal 或 /loop 命令，推动 Claude 持续工作直到任务结束。
在云端使用 Claude Code，这样你就可以合上笔记本电脑（最简单的方法是使用桌面版或移动端应用）。
确保 Claude 有办法端到端地自我验证工作成果：在浏览器中使用 Claude 的 Chrome 扩展，移动端使用 iOS/Android 模拟器 MCP，后端工作则提供一种启动完整 Web 服务或服务的方式。

很棒！

在我个人看来，4.8 版本不存在“上下文腐烂”的问题，不过我也很好奇你的体验是否也是如此。

我最重要的发现是：自我验证 + 动态工作流，配合类似“使用工作流，通过 claude in chrome MCP 在浏览器中端到端测试结果。尤其要关注边界情况和 UI 问题”这样的提示。

我曾用超长会话做过的几件事：

构建复杂功能
将代码从 X 语言迁移到 Y
将代码从 X 框架迁移到 Y
反复分析和优化代码，以达到特定的内存或 CPU 目标
在 CI 中查找和修复不稳定的测试用例
分析 CI 使其更快

我衡量这个投入产出比，而不是绝对成本：手工完成同样的工作需要多少成本？通常答案是数周甚至数月的工程师时间。

这些技能不是设计用来让用户手动调用的，不过你想的话也可以。只要告诉模型你想要什么，它自己就会去调用正确的技能。

我在 Opus 4.8 上已经见不到这种情况了，你呢？

运行 /usage 可以查看具体的技能、MCP 和插件分别消耗了多少你的令牌（token）。

直接告诉 Claude 使用工作流即可。

是的。它更强大，也更节省令牌（token）。

企业版的席位限制是可以配置的，或许你可以问问管理员提高一下限额？

我们两种方式都用！这取决于是一次性任务，还是你想在未来的 PR 中重复使用。

@bcherny 很多人试图通过编排层来实现这一点。你们打算什么时候做一个覆盖/监管智能体，用来监控、调度、汇总并管理其他会话？

代理视图（Agent View）很好用，但需要在不同会话之间跳来跳去让人很烦——尤其是活跃会话静悄悄地变成了“已完成”，而不是显示“需要输入”的时候。

@bcherny: 看到多个基准测试显示Opus是长期运行工作中的最佳模型。自主运行Opus的五个技巧……

相似文章

@bcherny：Opus 5 是一款出色的模型，适用于编程、数据分析、设计、生物学和知识工作。比任何这些评估分数更重要的是……

Claude Opus 4.8 于5月28日发布，其一项特性揭示了AI真正的发展方向。它现在可以将一个任务拆解为数十个并行工作流并同时运行。

OSWorld2.0：长周期真实世界任务中计算机使用代理的基准评测

@orca_build: Anthropic的新款Opus 4.8在Terminal-Bench 2.1上的得分比GPT 5.5低3.6%……但在UI任务上明显更出色。

@bcherny: 人们经常问我，充分利用 Claude Code 的最大秘诀是什么。现在我最重要的建议就是：使用自动模式…

提交意见反馈