Opus 4.7 (high) 登顶 LLM Debate Benchmark，领先前任冠军 Sonnet 4.6 (high) 106 BT 分。更惊人的是，它在所有已完成的“立场互换”对决中未尝败绩：51 胜、4 平、0 负。

Reddit r/singularity 2026/04/20 21:53 模型

llm-benchmark debate evaluation claude leaderboard ai-competition

摘要

更多详情、完整辩词、模型档案与对比：[https://github.com/lechmazur/debate](https://github.com/lechmazur/debate) 模型就同一辩题互换正反方各辩一次。Opus 4.7 常能抓住辩论的“轴心”，把整场交锋拉回关键点，并迫使对方按它的节奏防守。每场完整辩论由三模型裁判团评分，裁判与辩手避免同一家族。

更多详情、完整辩词、模型档案与对比：[https://github.com/lechmazur/debate](https://github.com/lechmazur/debate) 模型就同一辩题互换正反方各辩一次。Opus 4.7 常能抓住辩论的“轴心”，把整场交锋拉回关键点，并迫使对方按它的节奏防守。每场完整辩论由三模型裁判团评分，裁判与辩手避免同一家族。

查看原文

相似文章

@stevibe：哪些大模型真的“热爱思考”？实测7款模型5道数学题，推理长度大比拼。思考冠军：bo…

X AI KOLs Timeline

7款大模型在5道数学题上的基准测试；Qwen3.5 27B与35B A3B生成最长推理链，每题超10k tokens。

Opus 4.7 在 SimpleBench 上得分低于 4.6 与 4.5

Reddit r/singularity

Claude Opus 4.7 在 SimpleBench 评估中的表现较 4.6 与 4.5 版本有所下降。

PACT，LLM 正面交锋谈判基准。20 轮买卖双方议价博弈：每轮 AI 可互发消息，买方提交出价，卖方提交要价。若出价 ≥ 要价，则以中间价成交。涵盖数千场对局。

Reddit r/singularity

PACT 推出了针对 LLM 的对抗性谈判基准测试，通过 20 轮买卖双方议价博弈来评估模型的说服力与适应能力。顶尖模型包括 GPT-5.5 和 Opus 4.7，评分由 Glicko-2 算法计算，并采用类 Elo 评分体系展示。

在一个困难的新SWE基准测试ProgramBench上，GPT5.5 high/xhigh首次解决了任务，显著优于Opus 4.7

Reddit r/singularity

GPT5.5在困难的ProgramBench SWE基准测试中首次实现求解，显著优于Opus 4.7。

LLM 排名并非阶梯：来自传递性基准图的实验结果 [D]

Reddit r/MachineLearning

作者介绍了 LLM Win，这是一个将大语言模型（LLM）基准测试结果可视化为有向图的工具，用于分析传递关系和排名逆转。实验结果表明，LLM 的排名更像是一个具有较高弱到强可达性的能力图，而非线性阶梯。

提交意见反馈