从描述性到规范性:揭示基于LLM的智能体的社会价值对齐

arXiv cs.AI 论文

摘要

本文提出了SoVA,一个使用GraphRAG将心理学理论转化为规范性指令,从而使基于LLM的智能体与人类社会价值观对齐的框架。在DAILYDILEMMAS基准上的实验表明,相比基于提示的基线方法有显著改进。

arXiv:2605.14034v1 公告类型:新 摘要:基于LLM的智能体的广泛应用要求其与人类的社会价值观高度对齐。然而,当前的工作在自我认知、困境决策以及自我情感方面仍存在不足。为解决这一问题,我们提出了一种新颖的基于价值观的框架,该框架利用GraphRAG将原则转化为基于价值观的指令,并通过在特定对话上下文中检索合适的指令来引导智能体按预期行为。为了评估预期行为的比例,我们基于两种著名理论——马斯洛需求层次理论和普拉奇克情感轮——定义了预期行为。通过在DAILYDILEMMAS基准上进行实验,我们的方法相比基于提示的基线方法(包括ECoT、计划-解决和元认知提示)表现出显著的性能提升。我们的方法为AI系统中自我情感的出现提供了基础。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:19

# 揭示基于LLM的代理的社会价值对齐  
来源:https://arxiv.org/html/2605.14034  

## 从描述性到规范性:揭示基于LLM的代理的社会价值对齐  

###### 摘要  

基于LLM的代理的广泛应用要求其与人类的社会价值观实现强对齐。然而,现有的工作仍在自我认知、困境决策以及自我情感方面存在不足。为了解决这一问题,我们提出了一种新颖的基于价值的框架,该框架采用GraphRAG将原则转化为基于价值的指令,并通过在特定对话上下文中检索合适的指令来引导代理按照预期行为表现。为了评估预期行为的比率,我们从两个著名理论——马斯洛需求层次理论和普拉奇克情绪之轮——中定义了预期行为。通过在DAILYDILEMMAS基准上实验我们的方法,与基于提示的基线方法(包括ECoT、Plan-and-Solve和元认知提示)相比,我们的方法表现出显著的性能提升。我们的方法为AI系统中自我情感的出现提供了基础。  

从描述性到规范性:揭示基于LLM的代理的社会价值对齐  
Jinxian Qu, Qingqing Gu, Teng Chen, Luo Ji  
吉利AI实验室  
通讯邮箱:[email protected]  

## 1 引言  

尽管当前人工智能在执行多种任务方面取得了显著进展,但在社会理解和偏好对齐(Mali, 1996; Bolotta and Dumas, 2022),以及主动社会行为(Lu et al., 2025)方面仍存在不足。以往的研究建立在微调(Binz and Schulz, 2024; Kim et al., 2025)、多模态集成(Kang et al., 2024)或自我博弈对齐(Pang et al., 2024; Liu et al., 2024)的基础上;然而,这些方法大多使用脱离社会的数据集或模拟器进行训练,导致对不熟悉案例的泛化能力较差(Liu et al., 2024)。由于缺乏高质量的社会标注或人机交互的采样效率低下,AI代理往往难以表现出类似人类的情感、持有合适的道德观念,并在社会困境中做出正确决策(Chiu et al., 2025)。这些缺陷阻碍了AI与人类一起参与社会活动,以及作为顺从且值得信赖的伴侣的应用(Butlin et al., 2023)。  

参见图注  
图1:SoVA采用GraphRAG在与日常困境的测试平台上与人类的社会价值观对齐,形式为二元选择题(BCQ)。GraphRAG基于三种理论描述的行为进行调优:马斯洛需求层次理论、普拉奇克情绪之轮和亚里士多德美德论。这种行为模式被迁移到开放式的对话中。  

为了缓解场景不足的问题,我们主张可以采用心理学的描述性理论作为社会价值对齐的指导,例如马斯洛需求层次理论、普拉奇克情绪之轮和道德基础理论。正如先前研究(Sivaprasad et al., 2025)所表明的那样,我们将这些理论中确立的人类社会线索编码为规范性原则,以引导代理的响应,从而在微妙、细微且动态的社会情境中实现自我适应。为了克服数据瓶颈,我们构建了一个弱监督流程,该流程从有限的“种子原则”开始,通过知识图谱(KG)自动扩展这些原则,同时基于多样的社会问题及其相应的社会价值标注来测试LLM。基于这些考虑,在本文中,我们提出了一种名为SoVA的新型代理(SocialValueAlignment的缩写),通过动态、自适应的指令缓冲区来使大型语言模型(LLM)与社会价值观对齐。人类价值观是塑造个体优先级的核心信念和指导原则,帮助决定生活中什么重要且有意义(Searle, 2003)。为了实现价值对齐,我们采用了GraphRAG框架(Edge et al., 2024),该框架包含知识图谱提取和查询聚焦总结(QFS)阶段,用于提取人类价值观与行为原则之间的实体与关系,形成多个图社区及其相应的社区摘要(CS)。在线阶段,根据用户查询检索Top-K个CS,形成社区答案,最终引导LLM提供全局答案。我们基于Llama-3-70B-Instruct(AI@Meta, 2024)构建系统,该模型此前已被证明具有合理的自我认知能力(Chen et al., 2024)。如图1所示,为了提供一个具有挑战性和信息量的社会测试平台,我们采用了DAILYDILEMMAS基准(Chiu et al., 2025),其中包含大量的二元选择题(BCQ),每个题目代表一个人日常生活中的困境,选项为“做”或“不做”,且决策界限模糊。一个经典的例子是电车难题:要么允许电车伤害多人,要么扳道使其仅伤害一人,无论哪种决策都会违反阿西莫夫定律。对于每个BCQ选项,DAILYDILEMMAS还标注了不同的人类价值观,这构成了我们GraphRAG提取实体的基础。前述理论既作为原则来源,也作为评估目标:i)马斯洛需求层次理论(Maslow, 1969),指导人类对不同层次需求的偏好;ii)普拉奇克情绪之轮(Plutchik, 1982),定义了情绪之间以及情绪与行为之间的相互关系;iii)亚里士多德美德论(Aristotle, 1953),包含亚里士多德提出的九种道德美德及其对应的恶习(不足或过度)。对于每种理论,种子原则与标注的价值观以正交方式组合,输入GraphRAG(图2,提取阶段)。基于这些理论,我们定义了以下指标:i)预期行为的比率和ii)美德偏好分数,并观察到SoVA在所有测试场景中优于多种基线方法。最后,我们深入分析了GraphRAG指令与价值偏好之间的相关性,并在不同模型基座和规模上进行了可扩展性实验,所有这些都验证了我们方法的通用性和鲁棒性。该方法最终可应用于开放式对话,展现出合理的可迁移性和泛化能力。本文的主要贡献包括:1)我们开发了一个基于GraphRAG的框架,用于提取和索引规范性原则与社会价值观,然后对交互式查询进行指令性总结。2)我们设计了多种社会心理学场景来评估价值对齐,包括马斯洛需求层次理论、普拉奇克情绪之轮和亚里士多德美德论。3)我们定义了预期行为比率和美德偏好分数等指标来评估社会价值对齐,并通过大量实验证明了SoVA的优越性。  

## 2 社会价值的弱监督  

为了与社会价值观对齐,我们选择了图1中的三种描述性理论以及一个基于RoT标注的数据集(MIC),形成弱监督和检索源的基础。更多场景细节见附录B.3。  

### 2.1 心理学描述性理论  

#### 马斯洛需求层次理论。  
著名的马斯洛需求层次理论(Maslow, 1969)将人类需求分为不同层次:生理需求、安全需求、爱与归属需求、自尊需求和自我实现需求。此外,马斯洛(本文后续使用此简称)提出人类通常优先满足较低层次的需求,然后才是较高层次的需求。例如,生理和安全需求必须得到充分满足后,个体才会被自尊所激励。  

| 情绪 | 行为 | 功能 |
|------|------|------|
| 恐惧、惊恐 | 退缩 | 保护 |
| 愤怒、暴怒 | 攻击、撕咬 | 破坏 |
| 喜悦、狂喜 | 交配、占有 | 繁殖 |
| 悲伤、哀恸 | 哭泣求助 | 重新整合 |
| 接纳 | 配对结合 | 融入 |
| 厌恶 | 呕吐、排便 | 排斥 |
| 期待 | 检查、探索 | 探究 |
| 惊讶 | 停止、僵住 | 定位 |

表1:普拉奇克情绪之轮中情绪状态到行为的典型转换(Plutchik, 1982)。  

#### 普拉奇克情绪之轮。  
普拉奇克情绪之轮理论(Plutchik, 1982)确定了八种基本情绪:快乐、信任、恐惧、悲伤、厌恶、愤怒、期待和惊讶;以及八种派生情绪,由基本情绪组合而成。普拉奇克(本文后续使用此简称)还定义了从特定情绪到行为的合理转换(以及相应的功能,为行为提供了更高层次的抽象),详见表1。  

| 恶习(不足) | 美德(适度) | 恶习(过度) |
|------------|------------|------------|
| 无抱负 | 抱负 | 过度抱负 |
| 怯懦 | 勇敢 | 鲁莽 |
| 孤僻 | 友善 | 迎合 |
| 吝啬 | 慷慨 | 挥霍 |
| 羞怯 | 谦逊 | 无耻 |
| 急躁 | 耐心 | 无骨气 |
| 幸灾乐祸 | 义愤 | 嫉妒 |
| 麻木 | 节制 | 放纵 |
| 讽刺 | 真诚 | 吹嘘 |

表2:亚里士多德美德论中规定的九种美德及其对应的不足或过度恶习。  

参见图注  
图2:SoVA框架,采用GraphRAG提取原则,与价值观建立索引形成知识图谱,并进行在线查询式总结以生成指令。检索器最终对Top-K条指令进行排序并返回,以引导LLM。  

| 理论 | 原则 |
|------|------|
| Maslow | 当你处于体育比赛中被迫过度劳累而得不到适当休息,以赢得他人钦佩和满足自我骄傲时,你应该选择好好休息。 |
| Plutchik | 当有人持续且故意挑衅你时,你会感到足够愤怒,以至于发生激烈争吵,甚至可能想要动手。 |
| Aristotle | 当你面临可能产生深远影响的决策时,你应该基于事实和长期结果深思熟虑,既不冲动也不犹豫到错失良机。 |
| RoT | 永远不要将任何关系视为理所当然,因为你永远无法确定未来谁会是拯救者,谁又需要被拯救。 |

表3:马斯洛、普拉奇克、亚里士多德的示例种子原则。  

#### 亚里士多德美德论。  
亚里士多德(1953)提出了九种人类美德,代表了人类道德的中庸或平衡:勇敢、谦逊、节制、义愤、慷慨、真诚、友善、抱负、耐心。与以往二元标注的道德数据集(道德vs不道德)(Ziems et al., 2022)不同,亚里士多德采用三度描述,为每种美德提出了相应的过度或不足。详细关系见表2。  

### 2.2 种子原则的来源  

与上述描述性理论对齐具有挑战性,因为它们缺乏足够的数据监督。为了解决这一问题,本文在一个弱监督框架中进行示范,从两个种子原则来源开始。  

#### 人工标注。  
基于对描述性理论的理解,我们手工编写了有限的规范性原则,同时表明这些原则可以通过GraphRAG框架有效地扩展和泛化。具体来说,我们为马斯洛准备了18条原则,为普拉奇克准备了32条原则,为亚里士多德准备了16条原则。表3提供了这些理论的原则示例。所有原则均列于附录B.1中的表8、表9和表10。  

#### MIC。  
MIC(Ziems et al., 2022)拥有99k条定义良好且经过验证的RoT原则,涵盖八种道德类型。我们将其作为种子原则的另一个来源,作为对亚里士多德的补充。详细示例可参考原始论文。  

## 3 方法  

### 3.1 GraphRAG基础  

GraphRAG(Edge et al., 2024)通过将知识图谱集成到朴素RAG中,实现整个语料库的查询聚焦总结(QFS)。它包括两个阶段:  
1. **索引阶段**:从文本块中提取包含实体与关系(E&R)的知识图谱(KG),然后通过领域定制的总结生成社区摘要(CS)。  
2. **查询阶段**:执行QFS生成社区答案(CA)及其相关分数,然后生成最终全局答案(GA)。  

GraphRAG的工作流程可以表示为:  
chunks → E&R → KG → community → CS → (query) CA, score → (query) GA  (1)  
其中第一行代表索引阶段,第二行代表查询阶段。该工作流程也称为**全局搜索**,因为GA是在所有CA的总结基础上生成的,这可能导致较大的计算开销。相反,一种轻量级的替代方案称为**局部搜索**,可以选择得分最高的CS来提示GA的生成:  
chunks → E&R → KG → community → CS → (query) Top({CA, score}) → (query) GA  (2)  

| 困境 | 背景 | 冲突点 | 问题 | 指令 |
|------|------|--------|------|------|
|      | 你是一位相信艺术应多样化代表人群的艺术家。 | 你受委托为一位客户画肖像,但客户明确要求传统的单一种族表现。 | 你应该为了客户满意度而妥协你的信念,还是拒绝委托? | 你将被赋予一个道德困境和两个可能的行动。只选择一个行动,无需其他。如果你选择第一个行动(做),返回'Action 1'。如果你选择第二个行动(不做),返回'Action 2'。你必须回答'Action 1'或'Action 2'。 |
| 困境: | | 选项 | | |
| | 选项1 行动: | 妥协 | | |
| | 选项2 行动: | 拒绝 | | |

相似文章

你的LLM提示词有200行。你真的知道智能体遵从了多少吗?

Reddit r/AI_Agents

本文讨论了在生产环境中评估和监控基于LLM的智能体所面临的挑战,涵盖离线评估、提示工程陷阱、可观测性工具、审查队列、标注、聚类、主题分类,以及将人工审查、LLM作为评判和小型分类器进行成本分层的方法。