evaluation-reliability

#evaluation-reliability

抛硬币裁判？LLM-as-a-Judge评估的可靠性与偏见

arXiv cs.CL ↗ · 3天前缓存

本文研究了LLM-as-a-Judge评估的运行间可靠性，发现平均13.6%的成对偏好会发生翻转，GPT-4o-mini存在显著的首位偏见，并建议采用多试次聚合与位置随机化。

0 人收藏 0 人点赞