validity

标签

Cards List
#validity

隐藏的共识:人类反馈中的偏好有效性压缩

arXiv cs.CL · 昨天 缓存

本文认为,标准RLHF将人类偏好标量化的做法导致多个有效解释被压缩为单一目标,从而在文化多元的社会中错误衡量对齐。通过对马来西亚数据集的分析,研究发现79%的提示词存在多个多数支持的回答,而这些回答在单一胜者聚合中被丢弃。

0 人收藏 0 人点赞
#validity

生成-评估一致性:LLM驱动自适应评估的必要效度标准

arXiv cs.AI · 2026-05-20 缓存

介绍了生成-评估一致性(GEA),这是一种用于LLM驱动自适应评估的效度标准,并在一个两阶段自适应测试中对其进行了测量,发现该模型恢复了大约一半的预期方差,且存在系统性偏差。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈