measurement-reliability

标签

Cards List
#measurement-reliability

绘制评估前沿:十一种评估者-代理条件下偏差-可靠性权衡的实证调查

arXiv cs.LG · 23小时前 缓存

这项实证调查通过测量11种条件下的评估者耦合、策略多样性和小样本可靠性,扩展了先前关于LLM评估中偏差-可靠性权衡的研究,证实了低评估者影响会导致高测量噪声,而强耦合会降低多样性和噪声。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈