@datacurve: Opus 4.8 现已登陆 DeepSWE。在默认高思考投入设置下,其得分比 Opus 4.7 xhigh 高出6%,同时还能降低…
摘要
Opus 4.8 现已可在 DeepSWE 上使用,得分比 Opus 4.7 高出6%,并降低了每任务平均成本。
Opus 4.8 现已登陆 DeepSWE。
在默认高思考投入设置下,其得分比 Opus 4.7 xhigh 高出6%,同时还能降低每任务平均成本。https://t.co/HGLWsmDxZu
查看缓存全文
缓存时间: 2026/05/31 16:53
Opus 4.8 现已登陆 DeepSWE。
在默认的高思考力度下,它的评分比 Opus 4.7 xhigh 高出 6%,同时平均每任务成本也有所降低。https://t.co/HGLWsmDxZu
相似文章
DeepSWE Opus 4.8 的结果已发布。
DeepSWE Opus 4.8 的结果已发布,展示了其在基准测试中的表现。
@danshipper: 氛围测试:Opus 4.7 最近感觉进步很大。在编程、写作、策略和深度思考方面都有提升。
用户报告称,Opus 4.7 在编程、写作和策略推理任务上的表现有了显著改善。
MineBench上Opus 4.7与Opus 4.8的区别
Opus 4.8在MineBench 3D方块结构基准测试中相比Opus 4.7展现出更高的构建质量和更低的成本,尽管存在一些不一致性。该模型展示了更精简的推理过程和更高的推理效率。
Opus 4.7 在 SimpleBench 上得分低于 4.6 与 4.5
Claude Opus 4.7 在 SimpleBench 评估中的表现较 4.6 与 4.5 版本有所下降。
@orca_build: Anthropic的新款Opus 4.8在Terminal-Bench 2.1上的得分比GPT 5.5低3.6%……但在UI任务上明显更出色。
Anthropic的Opus 4.8在Terminal-Bench 2.1上比GPT 5.5低3.6%,但擅长UI任务;Orca的编排功能让Codex能将UI任务委托给Claude Code。