@nick_kango: 再加一个任务到我的推特基准测试集合里:) 对了,Opus 4.8 和所有 SOTA 模型都通过了,但我试的时候 Sonnet 4.6 和 Grok 4.3 没有通过…

X AI KOLs Timeline 新闻

摘要

Nick Kang 给他的推特基准测试集合新增了一个任务;Claude Opus 4.8 和其他 SOTA 模型通过了,而 Sonnet 4.6 和 Grok 4.3 失败了。Alfin 评论了 Opus 4.8 的危险能力。

再加一个任务到我的推特基准测试集合里:) 对了,我试的时候 Opus 4.8 和所有 SOTA 模型都通过了,但是 Sonnet 4.6 和 Grok 4.3 没有通过 https://kaggle.com/benchmarks/tasks/nicholaskanggoog/days-with-d-puzzle…
查看原文
查看缓存全文

缓存时间: 2026/05/31 11:06

又一个任务加入我的推特基准测试合集 :) 顺便一提,Opus 4.8 和所有 SOTA 模型在我测试时都通过了,但 sonnet 4.6 和 Grok 4.3 没有通过。https://kaggle.com/benchmarks/tasks/nicholaskanggoog/days-with-d-puzzle…

Alfin (@AlfinCodes): Claude Opus 4.8 简直疯狂。

这个模型问世后,一切都将改变。

Anthropic 不应该发布如此危险的东西。

相似文章