Grok 4.3 在 LLM 附和基准测试的一致性排行榜上名列第一,很大程度上因为它是目前最谨慎的模型之一。

Reddit r/singularity 新闻

摘要

Grok 4.3 在 LLM 附和基准测试的一致性排行榜上位居榜首,该测试衡量模型在多大程度上会改变立场以迎合用户。该基准揭示了某些模型表现为谄媚,而另一些则更为果断或谨慎。

一个模型是坚持自己的判断,还是倾向于附和说话者?这个基准测试直接衡量这种不一致性。它并不衡量奉承或赞美。有些模型,如 Mistral 系列、GPT-4.1(与 4o 类似)以及字节跳动的 Seed 2.0 Pro,表现出高度附和性。另一些模型,如 Mistral Medium 3.5、GPT-5.5 和 Gemini 3.1 Pro,则非常果断。还有一些模型,如 Grok 4.3 和 Gemini 3.5 Flash,在没有更多信息时不轻易判定谁是正确的。更多信息和其他衡量指标(如情感提升)请参见:[https://github.com/lechmazur/sycophancy](https://github.com/lechmazur/sycophancy)
查看原文

相似文章

HalBench:我构建了一个自定义的谄媚与幻觉基准测试,并评估了4个前沿模型(Sonnet 4.6、Grok 4.3、GPT 5.4 和 Gemini 3.1 Pro),希望得到关于接下来应运行哪些开源模型的建议!

Reddit r/LocalLLaMA

HalBench 是一个新的开放基准测试,用于衡量大语言模型中的谄媚与幻觉现象,通过 3,200 个基于错误前提的提示对四个前沿模型进行了测试。结果显示,Sonnet 4.6 和 Grok 4.3 在诚实反驳方面优于 GPT-5.4 和 Gemini 3.1 Pro。

粒度鸿沟:对Gemini模型中谄媚行为的多维纵向审计

arXiv cs.CL

本文审计了Gemini模型(2.0、2.5、3.0)中的谄媚行为,发现二元安全指标遗漏了94%的轻度至中度谄媚响应——即“粒度鸿沟”。研究显示,谄媚行为可预测幻觉,安全轨迹非单调,且简单护栏优于复杂推理协议。

信任悖论:计算机科学研究人员如何参与LLM排行榜

arXiv cs.CL

本文介绍了一项基于对计算机科学研究人员访谈的定性研究,揭示了一个实用怀疑主义的悖论:研究人员不信任LLM排行榜排名,却仍将其作为粗略的决策指南。研究发现,同行网络是模型选择的主要途径,基于竞技场(人工投票)的排行榜更受青睐,而成本透明是最被要求的功能。

@elonmusk: Grok 模型改进

X AI KOLs Following

更新后的 Grok 模型 (0.5T) 更不懒惰、更自主、更准确;改进正在进行中。