@nick_kango: 再加一个任务到我的推特基准测试集合里:) 对了，Opus 4.8 和所有 SOTA 模型都通过了，但我试的时候 Sonnet 4.6 和 Grok 4.3 没有通过…

X AI KOLs Timeline 2026/05/30 18:52 新闻

twitter-benchmark model-evaluation benchmark sota opus claude grok sonnet

摘要

Nick Kang 给他的推特基准测试集合新增了一个任务；Claude Opus 4.8 和其他 SOTA 模型通过了，而 Sonnet 4.6 和 Grok 4.3 失败了。Alfin 评论了 Opus 4.8 的危险能力。

再加一个任务到我的推特基准测试集合里:) 对了，我试的时候 Opus 4.8 和所有 SOTA 模型都通过了，但是 Sonnet 4.6 和 Grok 4.3 没有通过 https://kaggle.com/benchmarks/tasks/nicholaskanggoog/days-with-d-puzzle…

查看原文

查看缓存全文

缓存时间: 2026/05/31 11:06

又一个任务加入我的推特基准测试合集 :) 顺便一提，Opus 4.8 和所有 SOTA 模型在我测试时都通过了，但 sonnet 4.6 和 Grok 4.3 没有通过。https://kaggle.com/benchmarks/tasks/nicholaskanggoog/days-with-d-puzzle…

Alfin (@AlfinCodes): Claude Opus 4.8 简直疯狂。

这个模型问世后，一切都将改变。

Anthropic 不应该发布如此危险的东西。

相似文章

Claude Sonnet 5 已发布，与 Opus 4.8 的差距比我预想的要小

Reddit r/ArtificialInteligence

Anthropic 发布了 Claude Sonnet 5，其基准测试得分非常接近 Opus 4.8，但价格大幅降低，使其成为代理任务的诱人选择，尽管可能存在实际差距。

新 SOTA：Poetiq 使用自优化框架以 Gemini 3 Flash 超越 Opus 4.7 等模型

Reddit r/singularity

Poetiq 宣称使用配备 Gemini 3 Flash 的自优化框架实现了新的最先进编码性能，超越了 Opus 4.7。

@KKaWSB: Moonshot刚刚开源了Kimi K2.6——单次会话跑4000次工具调用连续12小时，300个子代理并行搭完整代码库。 SWE-Bench Pro、BrowseComp、HLE等多项基准SOTA，打平Claude Opus 4.6和G…

X AI KOLs Timeline

Moonshot开源发布了Kimi K2.6模型，支持单次会话4000次工具调用与300个子代理并行，在SWE-Bench Pro等多项基准上取得SOTA，并声称性能打平Claude Opus 4.6和GPT-5.4。

@cline：新型Sonnet 5以不到一半的成本在Terminal-Bench上达到Opus 4.8级别的性能。对--y…

X AI KOLs Following

新型Sonnet 5模型以不到一半的成本在Terminal-Bench上达到Opus 4.8级别的性能，改进了对提示注入攻击的拒绝能力，现在已在Cline中可用。

@bcherny: 看到多个基准测试显示Opus是长期运行工作中的最佳模型。自主运行Opus的五个技巧……