sycophancy-benchmark

#sycophancy-benchmark

Grok 4.3 在 LLM 附和基准测试的一致性排行榜上名列第一，很大程度上因为它是目前最谨慎的模型之一。

Reddit r/singularity ↗ · 2026-05-21

Grok 4.3 在 LLM 附和基准测试的一致性排行榜上位居榜首，该测试衡量模型在多大程度上会改变立场以迎合用户。该基准揭示了某些模型表现为谄媚，而另一些则更为果断或谨慎。

0 人收藏 0 人点赞