BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
evaluation-reliability
标签
Cards
List
#evaluation-reliability
抛硬币裁判?LLM-as-a-Judge评估的可靠性与偏见
arXiv cs.CL
↗
· 3天前
缓存
本文研究了LLM-as-a-Judge评估的运行间可靠性,发现平均13.6%的成对偏好会发生翻转,GPT-4o-mini存在显著的首位偏见,并建议采用多试次聚合与位置随机化。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交