标签
本文分析了来自75个国家的1500份开放式回答,揭示了人们对AI的偏好多样且常常相互冲突,其中真实是唯一被广泛需求的价值(49%),但定义方式却互不兼容。研究认为,当前的RLHF方法将这些多元偏好扁平化为通用奖励模型,延续了认知暴力。