@datacurve: Opus 4.8 现已登陆 DeepSWE。在默认高思考投入设置下，其得分比 Opus 4.7 xhigh 高出6%，同时还能降低…

X AI KOLs Following 2026/05/30 21:21 模型

model-update ai-model benchmark cost-efficiency opus-4.8

摘要

Opus 4.8 现已可在 DeepSWE 上使用，得分比 Opus 4.7 高出6%，并降低了每任务平均成本。

Opus 4.8 现已登陆 DeepSWE。在默认高思考投入设置下，其得分比 Opus 4.7 xhigh 高出6%，同时还能降低每任务平均成本。https://t.co/HGLWsmDxZu

查看原文

查看缓存全文

缓存时间: 2026/05/31 16:53

Opus 4.8 现已登陆 DeepSWE。

在默认的高思考力度下，它的评分比 Opus 4.7 xhigh 高出 6%，同时平均每任务成本也有所降低。https://t.co/HGLWsmDxZu

相似文章

Reddit r/singularity

DeepSWE Opus 4.8 的结果已发布，展示了其在基准测试中的表现。

X AI KOLs Following

用户报告称，Opus 4.7 在编程、写作和策略推理任务上的表现有了显著改善。

X AI KOLs Timeline

用户@TheGeorgePu称赞DeepSeek V4 Pro，称其被低估，并根据初步测试将其与Opus 4.8进行有利比较。

Reddit r/singularity

Opus 4.8在MineBench 3D方块结构基准测试中相比Opus 4.7展现出更高的构建质量和更低的成本，尽管存在一些不一致性。该模型展示了更精简的推理过程和更高的推理效率。

Reddit r/singularity

Claude Opus 4.7 在 SimpleBench 评估中的表现较 4.6 与 4.5 版本有所下降。