BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
sycophancy-benchmark
标签
Cards
List
#sycophancy-benchmark
Grok 4.3 在 LLM 附和基准测试的一致性排行榜上名列第一,很大程度上因为它是目前最谨慎的模型之一。
Reddit r/singularity
↗
· 2026-05-21
Grok 4.3 在 LLM 附和基准测试的一致性排行榜上位居榜首,该测试衡量模型在多大程度上会改变立场以迎合用户。该基准揭示了某些模型表现为谄媚,而另一些则更为果断或谨慎。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交