value-alignment

标签

Cards List
#value-alignment

考虑语境:塑造道德信念以实现价值对齐

arXiv cs.AI · 2026-06-08 缓存

本文主张,在AI价值对齐中聚合道德评估时必须考虑语境因素,表明忽略语境可能导致违反弱帕累托原则,类似于辛普森悖论。

0 人收藏 0 人点赞
#value-alignment

比人类更环保?大语言模型中的环境态度

arXiv cs.CL · 2026-06-03 缓存

本文开发了一个用于评估31个大语言模型环境态度的基准,发现它们往往表现出进步的环境观和情境敏感性,凸显了在可持续发展应用中可操控性和规范可靠性的问题。

0 人收藏 0 人点赞
#value-alignment

想获得AI工作?试试读康德

Wired · 2026-05-26 缓存

哲学家正越来越多地被顶尖AI实验室(如DeepMind和Anthropic)雇佣,以解决伦理和对齐问题,同时AI也在重塑大学的哲学课程。

0 人收藏 0 人点赞
#value-alignment

宗教表征中的遗漏偏见:评估LLM在日常伦理决策中的回答

arXiv cs.LG · 2026-05-26 缓存

本文介绍了AllFaith宗教表征基准,用于衡量LLM在回答日常伦理问题时遗漏宗教观点的频率,发现模型相较于人类预期,低估了宗教的作用,尤其是在实际个人情境中。

0 人收藏 0 人点赞
#value-alignment

DVMap: 通过高共识人口统计-价值映射实现细粒度多元价值对齐

arXiv cs.AI · 2026-05-15 缓存

本文介绍了DVMap,一个用于大语言模型细粒度多元价值对齐的框架,它使用高共识的人口统计-价值映射,而非粗略的国家标签,从而在跨人口统计、跨国家和跨价值维度上实现了强的泛化能力。

0 人收藏 0 人点赞
#value-alignment

从描述性到规范性:揭示基于LLM的智能体的社会价值对齐

arXiv cs.AI · 2026-05-15 缓存

本文提出了SoVA,一个使用GraphRAG将心理学理论转化为规范性指令,从而使基于LLM的智能体与人类社会价值观对齐的框架。在DAILYDILEMMAS基准上的实验表明,相比基于提示的基线方法有显著改进。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈