标签
本文主张,在AI价值对齐中聚合道德评估时必须考虑语境因素,表明忽略语境可能导致违反弱帕累托原则,类似于辛普森悖论。
本文开发了一个用于评估31个大语言模型环境态度的基准,发现它们往往表现出进步的环境观和情境敏感性,凸显了在可持续发展应用中可操控性和规范可靠性的问题。
哲学家正越来越多地被顶尖AI实验室(如DeepMind和Anthropic)雇佣,以解决伦理和对齐问题,同时AI也在重塑大学的哲学课程。
本文介绍了AllFaith宗教表征基准,用于衡量LLM在回答日常伦理问题时遗漏宗教观点的频率,发现模型相较于人类预期,低估了宗教的作用,尤其是在实际个人情境中。
本文介绍了DVMap,一个用于大语言模型细粒度多元价值对齐的框架,它使用高共识的人口统计-价值映射,而非粗略的国家标签,从而在跨人口统计、跨国家和跨价值维度上实现了强的泛化能力。
本文提出了SoVA,一个使用GraphRAG将心理学理论转化为规范性指令,从而使基于LLM的智能体与人类社会价值观对齐的框架。在DAILYDILEMMAS基准上的实验表明,相比基于提示的基线方法有显著改进。