@nick_kango: 再加一个任务到我的推特基准测试集合里:) 对了,Opus 4.8 和所有 SOTA 模型都通过了,但我试的时候 Sonnet 4.6 和 Grok 4.3 没有通过…
摘要
Nick Kang 给他的推特基准测试集合新增了一个任务;Claude Opus 4.8 和其他 SOTA 模型通过了,而 Sonnet 4.6 和 Grok 4.3 失败了。Alfin 评论了 Opus 4.8 的危险能力。
查看缓存全文
缓存时间: 2026/05/31 11:06
又一个任务加入我的推特基准测试合集 :) 顺便一提,Opus 4.8 和所有 SOTA 模型在我测试时都通过了,但 sonnet 4.6 和 Grok 4.3 没有通过。https://kaggle.com/benchmarks/tasks/nicholaskanggoog/days-with-d-puzzle…
Alfin (@AlfinCodes): Claude Opus 4.8 简直疯狂。
这个模型问世后,一切都将改变。
Anthropic 不应该发布如此危险的东西。
相似文章
新 SOTA:Poetiq 使用自优化框架以 Gemini 3 Flash 超越 Opus 4.7 等模型
Poetiq 宣称使用配备 Gemini 3 Flash 的自优化框架实现了新的最先进编码性能,超越了 Opus 4.7。
@KKaWSB: Moonshot刚刚开源了Kimi K2.6——单次会话跑4000次工具调用连续12小时,300个子代理并行搭完整代码库。 SWE-Bench Pro、BrowseComp、HLE等多项基准SOTA,打平Claude Opus 4.6和G…
Moonshot开源发布了Kimi K2.6模型,支持单次会话4000次工具调用与300个子代理并行,在SWE-Bench Pro等多项基准上取得SOTA,并声称性能打平Claude Opus 4.6和GPT-5.4。
@bentossell: 等等……如果大多数人都认为5.5优于4.7,我猜那是在终端编码基准测试上……4.8仍然被5.5超…
这条推文讨论了Claude Opus 4.8的发布,该版本在Opus 4.7的基础上提升了判断力并延长了独立工作能力,不过也指出在终端编码基准测试中,5.5版本仍然优于它。
@orca_build: Anthropic的新款Opus 4.8在Terminal-Bench 2.1上的得分比GPT 5.5低3.6%……但在UI任务上明显更出色。
Anthropic的Opus 4.8在Terminal-Bench 2.1上比GPT 5.5低3.6%,但擅长UI任务;Orca的编排功能让Codex能将UI任务委托给Claude Code。
@0xSero: 有没有其他人注意到 opus-4.8 比刚推出时更差了?他们把它削弱了。
用户观察到 opus-4.8 模型自推出以来性能有所下降。