evaluation-reliability

标签

Cards List
#evaluation-reliability

抛硬币裁判?LLM-as-a-Judge评估的可靠性与偏见

arXiv cs.CL · 3天前 缓存

本文研究了LLM-as-a-Judge评估的运行间可靠性,发现平均13.6%的成对偏好会发生翻转,GPT-4o-mini存在显著的首位偏见,并建议采用多试次聚合与位置随机化。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈