value-alignment

#value-alignment

考虑语境：塑造道德信念以实现价值对齐

arXiv cs.AI ↗ · 2026-06-08 缓存

本文主张，在AI价值对齐中聚合道德评估时必须考虑语境因素，表明忽略语境可能导致违反弱帕累托原则，类似于辛普森悖论。

0 人收藏 0 人点赞

#value-alignment

arXiv cs.CL ↗ · 2026-06-03 缓存

本文开发了一个用于评估31个大语言模型环境态度的基准，发现它们往往表现出进步的环境观和情境敏感性，凸显了在可持续发展应用中可操控性和规范可靠性的问题。

0 人收藏 0 人点赞

#value-alignment

Wired ↗ · 2026-05-26 缓存

哲学家正越来越多地被顶尖AI实验室（如DeepMind和Anthropic）雇佣，以解决伦理和对齐问题，同时AI也在重塑大学的哲学课程。

0 人收藏 0 人点赞

#value-alignment

arXiv cs.LG ↗ · 2026-05-26 缓存

本文介绍了AllFaith宗教表征基准，用于衡量LLM在回答日常伦理问题时遗漏宗教观点的频率，发现模型相较于人类预期，低估了宗教的作用，尤其是在实际个人情境中。

0 人收藏 0 人点赞

#value-alignment

arXiv cs.AI ↗ · 2026-05-15 缓存

本文介绍了DVMap，一个用于大语言模型细粒度多元价值对齐的框架，它使用高共识的人口统计-价值映射，而非粗略的国家标签，从而在跨人口统计、跨国家和跨价值维度上实现了强的泛化能力。

0 人收藏 0 人点赞

#value-alignment

arXiv cs.AI ↗ · 2026-05-15 缓存

本文提出了SoVA，一个使用GraphRAG将心理学理论转化为规范性指令，从而使基于LLM的智能体与人类社会价值观对齐的框架。在DAILYDILEMMAS基准上的实验表明，相比基于提示的基线方法有显著改进。

0 人收藏 0 人点赞