Opus 4.7 (high) 登顶 LLM Debate Benchmark,领先前任冠军 Sonnet 4.6 (high) 106 BT 分。更惊人的是,它在所有已完成的“立场互换”对决中未尝败绩:51 胜、4 平、0 负。
摘要
更多详情、完整辩词、模型档案与对比:[https://github.com/lechmazur/debate](https://github.com/lechmazur/debate) 模型就同一辩题互换正反方各辩一次。Opus 4.7 常能抓住辩论的“轴心”,把整场交锋拉回关键点,并迫使对方按它的节奏防守。每场完整辩论由三模型裁判团评分,裁判与辩手避免同一家族。
更多详情、完整辩词、模型档案与对比:[https://github.com/lechmazur/debate](https://github.com/lechmazur/debate) 模型就同一辩题互换正反方各辩一次。Opus 4.7 常能抓住辩论的“轴心”,把整场交锋拉回关键点,并迫使对方按它的节奏防守。每场完整辩论由三模型裁判团评分,裁判与辩手避免同一家族。
相似文章
Opus 4.8 Thinking 在 LMArena 的 Hard Prompts English 基准测试中持续下滑(再次)
Opus 4.8 Thinking 在 LMArena 的 Hard Prompts English 基准测试中持续下滑,得分比保持榜首的 Opus 4.6 Thinking 低 23 分。
HalBench:我构建了一个自定义的谄媚与幻觉基准测试,并评估了4个前沿模型(Sonnet 4.6、Grok 4.3、GPT 5.4 和 Gemini 3.1 Pro),希望得到关于接下来应运行哪些开源模型的建议!
HalBench 是一个新的开放基准测试,用于衡量大语言模型中的谄媚与幻觉现象,通过 3,200 个基于错误前提的提示对四个前沿模型进行了测试。结果显示,Sonnet 4.6 和 Grok 4.3 在诚实反驳方面优于 GPT-5.4 和 Gemini 3.1 Pro。
Opus 4.8 刚刚打破了 ARC-AGI-3(1分钟阅读)
一个名为 LisanBench 的新基准测试评估了 LLM 在需要规划、记忆和约束遵循的单词链任务上的表现,结果显示 o3 和 Anthropic 模型表现强劲。
@stevibe:哪些大模型真的“热爱思考”?实测7款模型5道数学题,推理长度大比拼。思考冠军:bo…
7款大模型在5道数学题上的基准测试;Qwen3.5 27B与35B A3B生成最长推理链,每题超10k tokens。
Opus 4.7 在 SimpleBench 上得分低于 4.6 与 4.5
Claude Opus 4.7 在 SimpleBench 评估中的表现较 4.6 与 4.5 版本有所下降。