Opus 4.7 (high) 登顶 LLM Debate Benchmark,领先前任冠军 Sonnet 4.6 (high) 106 BT 分。更惊人的是,它在所有已完成的“立场互换”对决中未尝败绩:51 胜、4 平、0 负。

Reddit r/singularity 模型

摘要

更多详情、完整辩词、模型档案与对比:[https://github.com/lechmazur/debate](https://github.com/lechmazur/debate) 模型就同一辩题互换正反方各辩一次。Opus 4.7 常能抓住辩论的“轴心”,把整场交锋拉回关键点,并迫使对方按它的节奏防守。每场完整辩论由三模型裁判团评分,裁判与辩手避免同一家族。

更多详情、完整辩词、模型档案与对比:[https://github.com/lechmazur/debate](https://github.com/lechmazur/debate) 模型就同一辩题互换正反方各辩一次。Opus 4.7 常能抓住辩论的“轴心”,把整场交锋拉回关键点,并迫使对方按它的节奏防守。每场完整辩论由三模型裁判团评分,裁判与辩手避免同一家族。
查看原文

相似文章

LLM 排名并非阶梯:来自传递性基准图的实验结果 [D]

Reddit r/MachineLearning

作者介绍了 LLM Win,这是一个将大语言模型(LLM)基准测试结果可视化为有向图的工具,用于分析传递关系和排名逆转。实验结果表明,LLM 的排名更像是一个具有较高弱到强可达性的能力图,而非线性阶梯。