@danshipper: 氛围测试:Opus 4.7 最近感觉进步很大。在编程、写作、策略和深度思考方面都有提升。
摘要
用户报告称,Opus 4.7 在编程、写作和策略推理任务上的表现有了显著改善。
氛围测试:
Opus 4.7 最近感觉进步很大。无论是编程、写作/策略,还是深度思考任务
@every 内部也有几个人独立注意到了这一点。如果你过去几周没试过,不妨试试看! https://t.co/uI9ZwBmHk1
查看缓存全文
缓存时间: 2026/05/13 06:42
vibe check:
最近感觉 Opus 4.7 提升了不少。无论是编程还是写作、策略制定或深度思考任务,表现都更加出色。
@every 内部的好几个人也各自注意到了这一点。如果你过去几周还没试过,不妨试试看!https://t.co/uI9ZwBmHk1
相似文章
@datacurve: Opus 4.8 现已登陆 DeepSWE。在默认高思考投入设置下,其得分比 Opus 4.7 xhigh 高出6%,同时还能降低…
Opus 4.8 现已可在 DeepSWE 上使用,得分比 Opus 4.7 高出6%,并降低了每任务平均成本。
“@mfpiccolo: Opus 4.8 已发布。以下是 @iiidevs 首席工程师的结论:进行了压力测试,它只是另一个无法真正理解……的语言模型”
Anthropic 发布了 Claude Opus 4.8,这是对 Opus 4.7 的增量更新,具有更精准的判断力和更长的自主工作能力,不过一些工程师对其在缺乏广泛指导下的代码生成能力仍持怀疑态度。
@omarsar0:一样。对 Opus 4.8(规划)和 GPT-5.5(执行)很满意。另外,把步骤拆分成更小的部分来提高质量这一点被严重低估了。
一位开发者分享了对 Opus 4.8(用于规划)和 GPT-5.5(用于执行)的满意,强调将任务分解成更小的步骤能提高质量,并且动态工作流程被低估了。
@0xSero: 有没有其他人注意到 opus-4.8 比刚推出时更差了?他们把它削弱了。
用户观察到 opus-4.8 模型自推出以来性能有所下降。
@bentossell: 等等……如果大多数人都认为5.5优于4.7,我猜那是在终端编码基准测试上……4.8仍然被5.5超…
这条推文讨论了Claude Opus 4.8的发布,该版本在Opus 4.7的基础上提升了判断力并延长了独立工作能力,不过也指出在终端编码基准测试中,5.5版本仍然优于它。