@omarsar0:一样。对 Opus 4.8(规划)和 GPT-5.5(执行)很满意。另外,把步骤拆分成更小的部分来提高质量这一点被严重低估了。
摘要
一位开发者分享了对 Opus 4.8(用于规划)和 GPT-5.5(用于执行)的满意,强调将任务分解成更小的步骤能提高质量,并且动态工作流程被低估了。
查看缓存全文
缓存时间: 2026/06/15 00:52
一样。对 Opus 4.8(规划)和 GPT-5.5(执行)很满意。
此外,将步骤拆分成更小的部分以提高质量这一点被严重低估了。这就是为什么动态工作流比大多数人想象的要重要得多。
sunil pai (@threepointone): 花了一整天在 fable 上处理一个大型 PR。约 10kloc,大量测试和干预。花费 250 美元。
我……觉得不值?对 4.8/5.5 很满意,而且工作质量在步骤拆分得更细时更好。
仍在用 @cursor_ai,这是我依然喜欢使用的软件,在……
相似文章
@orca_build: Anthropic的新款Opus 4.8在Terminal-Bench 2.1上的得分比GPT 5.5低3.6%……但在UI任务上明显更出色。
Anthropic的Opus 4.8在Terminal-Bench 2.1上比GPT 5.5低3.6%,但擅长UI任务;Orca的编排功能让Codex能将UI任务委托给Claude Code。
@danshipper: 氛围测试:Opus 4.7 最近感觉进步很大。在编程、写作、策略和深度思考方面都有提升。
用户报告称,Opus 4.7 在编程、写作和策略推理任务上的表现有了显著改善。
@RayFernando1337:在多任务工作流中使用 Cursor 的 Opus 4.8 Max Thinking,在长上下文理解、速度和实现……
一位开发者分享了他使用 Cursor 的子代理工具与 Opus 4.8 Max Thinking 进行长上下文理解和在 Swift 中实现大型功能的工作流程,强调了动手规划和分阶段验收测试。
@dhh:过去一周多我一直在使用低推理模式下的 GPT5.5,效果非常好,效率极高。完全没有想转向 Opus 的冲动……
DHH 称赞 GPT-5.5 在低推理设置下的表现和效率,指出其超越了 Opus 和 Kimi。
“@mfpiccolo: Opus 4.8 已发布。以下是 @iiidevs 首席工程师的结论:进行了压力测试,它只是另一个无法真正理解……的语言模型”
Anthropic 发布了 Claude Opus 4.8,这是对 Opus 4.7 的增量更新,具有更精准的判断力和更长的自主工作能力,不过一些工程师对其在缺乏广泛指导下的代码生成能力仍持怀疑态度。