preference-aggregation

#preference-aggregation

隐藏的共识：人类反馈中的偏好有效性压缩

arXiv cs.CL ↗ · 昨天缓存

本文认为，标准RLHF将人类偏好标量化的做法导致多个有效解释被压缩为单一目标，从而在文化多元的社会中错误衡量对齐。通过对马来西亚数据集的分析，研究发现79%的提示词存在多个多数支持的回答，而这些回答在单一胜者聚合中被丢弃。

0 人收藏 0 人点赞

#preference-aggregation

arXiv cs.CL ↗ · 3天前缓存

本文分析了来自75个国家的1500份开放式回答，揭示了人们对AI的偏好多样且常常相互冲突，其中真实是唯一被广泛需求的价值（49%），但定义方式却互不兼容。研究认为，当前的RLHF方法将这些多元偏好扁平化为通用奖励模型，延续了认知暴力。

0 人收藏 0 人点赞

#preference-aggregation

arXiv cs.LG ↗ · 2026-05-26 缓存

提出了一种用于移动众包中LLM微调的真实在线偏好聚合机制，解决了策略性工人误报问题，并实现了次线性遗憾。

0 人收藏 0 人点赞