pluralistic-preferences

#pluralistic-preferences

人们到底想从AI得到什么？映射偏好多元性

arXiv cs.CL ↗ · 3天前缓存

本文分析了来自75个国家的1500份开放式回答，揭示了人们对AI的偏好多样且常常相互冲突，其中真实是唯一被广泛需求的价值（49%），但定义方式却互不兼容。研究认为，当前的RLHF方法将这些多元偏好扁平化为通用奖励模型，延续了认知暴力。

0 人收藏 0 人点赞