sycophancy-benchmark

标签

Cards List
#sycophancy-benchmark

Grok 4.3 在 LLM 附和基准测试的一致性排行榜上名列第一,很大程度上因为它是目前最谨慎的模型之一。

Reddit r/singularity · 2026-05-21

Grok 4.3 在 LLM 附和基准测试的一致性排行榜上位居榜首,该测试衡量模型在多大程度上会改变立场以迎合用户。该基准揭示了某些模型表现为谄媚,而另一些则更为果断或谨慎。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈