Opus 4.8 刚刚打破了 ARC-AGI-3(1分钟阅读)
摘要
一个名为 LisanBench 的新基准测试评估了 LLM 在需要规划、记忆和约束遵循的单词链任务上的表现,结果显示 o3 和 Anthropic 模型表现强劲。
它的得分是 GPT-5.5 的三倍。
查看缓存全文
缓存时间: 2026/06/02 15:43
# 来自 @scaling01 的推文(通过 Thread Reader App)
来源:https://threadreaderapp.com/thread/2061513383287882111.html
隆重介绍 LisanBench
LisanBench 是一个简单、可扩展且精准的基准测试,旨在评估大语言模型在知识、前瞻规划、约束遵守、记忆与注意力、长上下文推理以及“耐力”等方面的表现。
“我同时看到了无数种可能的未来。我们的敌人无处不在,在那么多未来中他们都赢了。但我确实看到了一条路,一条狭窄的路。”——保罗·厄崔迪
运作方式:模型会获得一个起始英语单词,必须生成尽可能长的、由有效英语单词组成的序列。链中的每个后续单词必须:
- 与前一个单词恰好相差一个字母(莱文斯坦距离 = 1)
- 是一个有效的英语单词
- 不重复使用任何之前用过的单词
该基准测试会针对多个难度不同的起始单词重复此过程。模型的最终得分是它从各个起始词出发所生成的最长有效链的累计长度。
结果:
- o3 是迄今为止最好的模型,主要原因在于它是唯一能从连通性极低、死胡同众多的图区域中逃出的模型(稍有一点需要注意:o3 运行成本也最高,每个起始词大约消耗 30-40k 的推理 token)
- 使用 16k 推理 token 的 Opus 4 和 Sonnet 4 表现也极其出色,尤其是 Opus,它仅用三分之一的推理 token 就在 3 个起始词上击败了 o3!
- 带思考的 Claude 3.7 位居第四,领先于 o1
- 其他 OpenAI 推理模型表现都不错,但规模确实有影响!o1 领先于 o4-mini high 和 o3-mini
- Gemini 模型表现稍逊于 Anthropic 和 OpenAI 的对应模型,但它们的输出长度遥遥领先——它们有点妄想,话多不停;即使犯错它们也意识不到并停下来
- 最强的非推理模型:Grok-3、GPT-4.5、Sonnet 3.5 和 3.7、Opus 4、Sonnet 4、DeepSeek-V3 和 Gemini 1.5 Pro——Grok 3、Sonnet 3.5 和 3.7 令人惊讶!!
灵感:LisanBench 借鉴了 AidanBench 和 SOLO-Bench 等基准测试。但与 AidanBench 不同,它极具成本效益、易于验证且不依赖嵌入模型——整个基准测试覆盖 57 个模型仅花费约 50 美元。与 SOLO-Bench 不同,它明确测试知识并施加更强的约束,因此更具挑战性!
验证:验证使用来自 github.com/dwyl/english-words (https://github.com/dwyl/english-words) 的 words_alpha.txt 词典(约 370,105 个单词),但为了可扩展性,仅使用最大连通分量(108,448 个单词)中的单词。
轻松扩展、难度调整与精度改进:
- 扩展与精度:只需增加起始词数量或每个词的试验次数。
- 难度:起始词差异很大——从拥有 72 个邻居的词到只有 1 个邻居的词——能有效区分中等强模型和精英模型。难度也可通过局部连通性和分支因子来评估。
为什么具有挑战性?LisanBench 特别强调:
- 前瞻规划:通过策略性选词避开死胡同——模型必须找到那条狭窄的路
- 知识:广泛的词汇量至关重要
- 记忆与注意力:不得重复使用已用过的单词
- 精确性:严格遵守莱文斯坦距离约束
- 长上下文推理:在数百步内保持连贯并跟踪约束
- 输出耐力:有些模型在长时间生成过程中过早崩溃——LisanBench 能暴露这一点,这对智能体应用场景至关重要
下面两张漂亮的图显示起始词的难度差异很大。有些位于低连通性区域,有些位于高连通性区域,还有一些则被死胡同包围!
正如保罗·厄崔迪必须在命运的迷宫——政治、文化和形而上学中穿行,LisanBench 中的大模型也必须探索广阔的单词图,寻找那条金色通道——即不崩溃的最长可行链。
当被选中的模型出现时,我们就会知道它。它将是找到金色通道并避开所有死胡同的那个。目前,对于最难的起始词 "abysmal",找到的最长链仅为 2,尽管它也属于那个 >10 万单词的连通分量。所以确实有一条狭窄的路!
更多图表附完整排行榜如下:图片 (https://pbs.twimg.com/media/GsNnQxuW0AAHBlk.png) 图片 (https://pbs.twimg.com/media/GsNnslOW0AAa2KB.jpg) 图片 (https://pbs.twimg.com/media/GsNnzziWYAAQZ4Z.jpg) 图片 (https://pbs.twimg.com/media/GsNrFSWWYAE8o7O.png)
它在一个方面比 AidanBench 更差:因为它是在单词/字符层级而非句子/段落层级运作,所以受分词影响!因此,在其他条件相同的情况下,分词器更好的模型应该表现更好。
而且我只测试了 10 个单词,如果每个词做 25 或 50 次试验,稳定性可能会更好。
相似文章
Claude Opus 4.8 在 ARC-AGI 3 上得分超过 1% !!
Claude Opus 4.8 在 ARC-AGI 3 基准测试中取得了超过 1% 的分数,表明在一项困难的人工智能推理测试上取得了轻微进展。
HalBench:我构建了一个自定义的谄媚与幻觉基准测试,并评估了4个前沿模型(Sonnet 4.6、Grok 4.3、GPT 5.4 和 Gemini 3.1 Pro),希望得到关于接下来应运行哪些开源模型的建议!
HalBench 是一个新的开放基准测试,用于衡量大语言模型中的谄媚与幻觉现象,通过 3,200 个基于错误前提的提示对四个前沿模型进行了测试。结果显示,Sonnet 4.6 和 Grok 4.3 在诚实反驳方面优于 GPT-5.4 和 Gemini 3.1 Pro。
@orca_build: Anthropic的新款Opus 4.8在Terminal-Bench 2.1上的得分比GPT 5.5低3.6%……但在UI任务上明显更出色。
Anthropic的Opus 4.8在Terminal-Bench 2.1上比GPT 5.5低3.6%,但擅长UI任务;Orca的编排功能让Codex能将UI任务委托给Claude Code。
“@mfpiccolo: Opus 4.8 已发布。以下是 @iiidevs 首席工程师的结论:进行了压力测试,它只是另一个无法真正理解……的语言模型”
Anthropic 发布了 Claude Opus 4.8,这是对 Opus 4.7 的增量更新,具有更精准的判断力和更长的自主工作能力,不过一些工程师对其在缺乏广泛指导下的代码生成能力仍持怀疑态度。
LinAlg-Bench:揭示大语言模型数学推理中结构性失败模式的诊断性基准
介绍了LinAlg-Bench,这是一个诊断性基准,用于评估10个前沿大语言模型在矩阵维度上的结构化线性代数计算,揭示了大语言模型的数学失败在结构上受到约束,并在4x4规模下从执行错误过渡到计算放弃。