Opus 4.7 (high) 登顶 LLM Debate Benchmark,领先前任冠军 Sonnet 4.6 (high) 106 BT 分。更惊人的是,它在所有已完成的“立场互换”对决中未尝败绩:51 胜、4 平、0 负。

Reddit r/singularity 模型

摘要

更多详情、完整辩词、模型档案与对比:[https://github.com/lechmazur/debate](https://github.com/lechmazur/debate) 模型就同一辩题互换正反方各辩一次。Opus 4.7 常能抓住辩论的“轴心”,把整场交锋拉回关键点,并迫使对方按它的节奏防守。每场完整辩论由三模型裁判团评分,裁判与辩手避免同一家族。

更多详情、完整辩词、模型档案与对比:[https://github.com/lechmazur/debate](https://github.com/lechmazur/debate) 模型就同一辩题互换正反方各辩一次。Opus 4.7 常能抓住辩论的“轴心”,把整场交锋拉回关键点,并迫使对方按它的节奏防守。每场完整辩论由三模型裁判团评分,裁判与辩手避免同一家族。
查看原文

相似文章

HalBench:我构建了一个自定义的谄媚与幻觉基准测试,并评估了4个前沿模型(Sonnet 4.6、Grok 4.3、GPT 5.4 和 Gemini 3.1 Pro),希望得到关于接下来应运行哪些开源模型的建议!

Reddit r/LocalLLaMA

HalBench 是一个新的开放基准测试,用于衡量大语言模型中的谄媚与幻觉现象,通过 3,200 个基于错误前提的提示对四个前沿模型进行了测试。结果显示,Sonnet 4.6 和 Grok 4.3 在诚实反驳方面优于 GPT-5.4 和 Gemini 3.1 Pro。