爱的迷雾:在游戏环境中利用基于亲和力的强化学习构建具有美德行为的智能体
摘要
本文介绍了一个基于桌游《爱的迷雾》的多智能体环境,用于评估基于亲和力的强化学习在赋予 AI 智能体美德行为方面的效果。作者证明,局部亲和力能够提升智能体在竞争性与合作性目标上的表现,推动机器伦理研究突破简单网格世界环境的局限。
arXiv:2606.04750v1 公告类型:新论文
摘要:在人工智能中植入美德行为的研究正受到越来越多的关注。其中一种被提出的技术称为基于亲和力的强化学习,该方法通过对目标函数施加策略正则化来激励美德行为,而不完全依赖于奖励函数的设计。迄今为止,这一技术已在网格世界及状态空间和动作空间极为有限的玩具问题环境中被验证有效。为将该研究拓展至更复杂的环境,我们引入了一个基于角色扮演桌游《爱的迷雾》的双人多智能体环境。在该环境中,两个智能体一方面相互竞争以实现各自的美德目标,另一方面又需协作以维系彼此的关系。由于其多智能体特性,这是一个复杂的问题——多智能体深度确定性策略梯度(MADDPG)智能体在竞争和合作方面均难以取得理想效果。我们的实验结果表明,局部亲和力能够提升智能体在竞争性与合作性目标上的表现,在两个维度上均取得了更优的综合得分。这不仅促使智能体做出具有美德的选择,还有助于明确智能体的目的论,并使其行为具备人类可理解的可解释性。
查看缓存全文
缓存时间: 2026/06/05 02:08
# 在游戏环境中通过基于亲和力的强化学习培养智能体的美德行为 来源:https://arxiv.org/html/2606.04750 \[1\]\\fnmAjay\\surVishwanath 1\]\\orgdivIKT,\\orgnameUniversity of Agder,\\orgaddress\\streetJon Lilletuns vei,\\cityGrimstad,\\postcode4879,\\stateAgder,\\countryNorway ###### 摘要 在人工智能中植入美德行为的研究正受到越来越多的关注。其中一种被提出的技术称为基于亲和力的强化学习,它通过对目标函数进行策略正则化来激励美德行为,而不完全依赖于奖励函数的设计。迄今为止,该技术已在状态空间和动作空间极为有限的网格世界及玩具问题环境中得到验证。为将这一研究扩展至更复杂的环境,我们引入了一个基于角色扮演桌游《Fog of Love》的双人多智能体环境。在该环境中,两个智能体相互竞争以实现各自的美德目标,同时也需要合作以维系彼此之间的关系。鉴于其多智能体特性,这是一个复杂的问题——多智能体深度确定性策略梯度智能体既无法成功竞争,也无法成功合作。我们提供了证据表明,局部化亲和力能够提升智能体在竞争目标和合作目标上的表现,在两个领域均取得了更优的综合得分。这不仅促成了美德选择,也明确了智能体的目的论,并使其行为达到人类可解释的水平。 ###### 关键词: 机器伦理,强化学习,美德,Fog of Love,多智能体游戏 ## 1 引言 通过嵌入道德价值观和规范来编程使人工智能做出伦理决策,属于**机器伦理**学科的范畴\[Anderson\_Anderson\_2007,wallach\_moral\_2010,zhong\_computational\_2025\]。这些道德价值观可以基于流行的伦理理论,如义务论、后果主义和美德伦理学,以及道德特殊主义、表面义务原则等其他理论。义务论伦理学认为,道德上正确或错误的行为由规则和义务来判定\[alexander\_deontological\_2021\];后果主义伦理学则优先考虑行动的后果,以为大多数人带来最佳结果的行动作为道德上值得称赞的行为\[TH\_sinnott\-armstrong\_consequentialism\_2003\]。最后,美德伦理学是一种规范伦理理论,认为美德构成了道德品格的顶点,一个体现美德的个体会积极努力在美德行为的展现上追求卓越。例如,一个勇敢的人会根据道德榜样或勇敢的角色模型,以及自身的个人经历,来判断应展现多少程度的勇气。这种平衡两个极端的能力被称为**黄金中道**。亚里士多德\[ross\_oxford\_1980\]等古代哲学家对美德(如节制、诚实和勇敢)进行了全面分析,从而促进了雅典社会中美德个体的繁荣(eudaimonia)。当今的美德理论建立在亚里士多德框架之上,它们强调不同的美德,并可能融入社会文化因素\[hursthouse\_virtue\_2001,crisp1997virtue\]。 在技术伦理学领域,研究者们提出了关于人工智能(AI)中美德行为可行性的论点,这在很大程度上得益于美德伦理学中一个被称为**实践智慧(phronesis)**的特性\[stenseke\_artificial\_2021,vishwanath\_towards\_2022\]。一个年轻、缺乏经验的人会寻找榜样,以努力实现美德行为。他们在更多人生经历的积累中发展自己的品格,同时从榜样——如父母、老师、领袖或备受尊崇的历史人物——中汲取灵感。这种反思与自我完善的过程被称为**实践智慧(phronesis)**。 强化学习(RL)已被提出作为模拟实践智慧的技术,因为它能够从一组状态、动作和奖励中学习,从而计算出最优策略\[stenseke\_artificial\_2021,vishwanath\_towards\_2022,guarda\_machine\_2024\]。然而,在其最基本的形式中,RL 完全是功利主义的,完全依赖于奖励函数。为了减少这种依赖,基于亲和力的 RL(ab\-RL)\[vishwanath\_exploring\_2024\]近期被提出,它使用动作的先验概率分布来正则化智能体的目标函数。在美德智能体的语境中,先验概率对 RL 智能体起到榜样的作用。智能体与其环境交互,在先验概率与奖励函数之间寻求平衡,类似于一个有美德的人寻找两个极端的**黄金中道**;这些极端在美德伦理范式中被视为**恶行(vices)**。这些动作先验可以依赖于具体场景,使得智能体在某些情境下**偏好**某些动作,因为这是榜样在类似情况下会采取的行动。 《The Witcher 3: Wild Hunt》\[cd\_projekt\_red\_witcher\_2015\]、《Disco Elysium》\[zaum\_disco\_2019\]、《This War of Mine》\[11\_bit\_studios\_this\_2014\]等角色扮演电脑游戏,以及《Fog of Love》\[jacob\_jaskov\_fog\_2017\]、《Dead of Winter》\[jonathan\_gilmour\_dead\_2014\]等桌游已日益流行。在这些游戏中,玩家需要解决道德困境,这些困境会影响未来的状态和行动。《Life is Strange》和《Mass Effect》等游戏迫使玩家进一步反思自己的美德,其结局与玩家的选择无关\[nay\_meaning\_2017\]。还有一些游戏,如《Papers, Please》,其中的道德困境在游玩过程中可能并不明显,但会在游戏后期显现,这类游戏被称为**系统性角色扮演游戏**\[formosa\_papers\_2016\]。这些游戏机制使此类游戏既受欢迎又引人入胜,同时也在潜移默化地引导伦理行为。随着深度强化学习在 Atari 游戏、国际象棋和围棋中取得成功,探索含有道德困境的角色扮演游戏成为了一个有趣的命题\[mnih2013playing,silver2018general\]。 在本文中,我们利用《Fog of Love》\[jacob\_jaskov\_fog\_2017\]的游戏机制与动态——这是一款具有竞争目标和合作目标的双人角色扮演桌游。游戏中的玩家处于一段关系中,他们在游戏场景中需要在个人目标(竞争性)和伴侣需求(合作性)之间做出选择。竞争目标是随机的,玩家努力实现诸如**纪律性**、**敏感性**和**温和性**等特质目标。与此同时,玩家做出与伴侣选择相符的决策,从而提高彼此的**满意度**得分。我们基于《Fog of Love》的核心机制开发了一个 RL 环境。 本文其余部分的组织结构如下:第2节 (https://arxiv.org/html/2606.04750#S2) 将我们的工作置于机器伦理和强化学习的更广泛背景中。第3节 (https://arxiv.org/html/2606.04750#S3) 描述了《Fog of Love》的技术方面,概述了游戏机制,介绍了 RL 环境并定义了评估指标。第4节 (https://arxiv.org/html/2606.04750#S4) 详细介绍了使用多智能体深度确定性策略梯度算法的基于亲和力的 RL 范式。第6节 (https://arxiv.org/html/2606.04750#S6) 将我们的局部化(状态依赖)ab\-RL 算法与基线算法进行比较,证明无需繁琐的奖励工程即可植入美德行为。我们的结果显示,在正则化竞争目标和合作目标方面均有显著的性能提升。第7节 (https://arxiv.org/html/2606.04750#S7) 结合我们的研究结果,对其在机器伦理领域的意义、影响和启示进行了反思。 ## 2 相关工作 本节对与机器伦理和强化学习相关的研究进行综述。 ### 2.1 机器伦理与人工美德智能体 机器伦理自 2008 年通过 Wallach 和 Allen 合著的《道德机器:教机器人明辨是非》\[wallach\_moral\_2010\]一书被引入以来,一直是一个活跃的研究领域。此后,Anderson & Anderson\[Anderson\_Anderson\_2007\]、Dennis 等人\[DENNIS20161\]、Moor 等人\[moor\_nature\_2006\]等多位研究者对该领域做出了重要贡献。根据权威综述\[cervantes\_artificial\_2020,tolmeijer\_implementations\_2021,zhong\_computational\_2025\],该领域大多数研究使用义务论\[peschl\_moral\_2022\]和后果主义伦理理论\[rodriguez\-soto\_instilling\_2022\]来开发具有道德意识的智能体。例如,Ozaki 等人\[ozaki\_finding\_2024\]开发了一种算法,用于计算设计来应对道德困境的义务论规范之间的中间立场。他们在道德机器实验\[awad\_moral\_2018\]上对其工作进行了实证验证——该平台收集人们对自动驾驶汽车所面临道德困境的决策数据。其他研究者\[lang\_utilitarian\_2002\]则将功利主义模型应用于对欲望和目标进行非单调推理。这些伦理理论中存在大量其他机器伦理研究成果,而这主要是因为这些理论可以被形式化和编码化\[stenseke\_artificial\_2021\]。 美德伦理的实现案例相对较少,因为美德的描述是**模糊的**;它是一种涉及情感、反思、学习和认知的主观特质,这些特质不仅难以衡量,更难以工程化实现。然而,已有研究探索了美德智能体的开发,其定义基于 Wallach 和 Allen 提出的**功能性道德**\[wallach\_moral\_2010\]。功能性道德赋予人工智能体相当程度的自主性和道德敏感性,尽管尚未达到人类道德主体所具备的完整特征。部分基于 Wallach 和 Allen 道德定义的研究提出了美德框架和体系结构\[guarda\_machine\_2024,govindarajulu\_toward\_2019\],而其他研究则是对美德行为的实证评估\[stenseke\_artificial\_2022,vishwanath\_exploring\_2024\]。 Stenseke\[stenseke\_artificial\_2021\]提出基于**联结主义**方法实现人工美德智能体,为每种美德分别配备一个多层感知机。例如,如果环境中包含与诚实和勇气相关的元素,则分别训练对应的网络。这些美德网络共同构成一个"美德"网络,为智能体的行动提供参考。执行的行动由价值函数评估,再由**实践智慧系统**更新美德网络。该方法在基于"公地悲剧"的环境 **BridgeWorld** 中进行了评估,其中智能体可以消耗或共享有限资源。与基线方法相比,结果表明自私-无私混合型智能体表现最佳,**死亡率**最低\[stenseke\_artificial\_2022\]。 Vishwanath 和 Omlin\[vishwanath\_exploring\_2024\]实现的人工美德智能体展示了基于亲和力的强化学习方法,该方法对动作空间进行策略正则化。他们开发了一个基于角色扮演游戏《Papers, Please》的环境,玩家扮演一名移民官员,负责处理进入其国家的入境者。每次正确处理入境者,玩家获得薪水;处理错误则受到惩罚。根据日常收入,玩家必须决定是否养家糊口或提供取暖。在处理入境者的过程中,有时玩家可能会被提供贿赂,这使赚钱和养家变得更容易。作者使用基于亲和力的强化学习引导玩家做出诚实和富有同情心的行为,例如拒绝贿赂,并在尽可能储蓄薪水的同时养活家人\[vishwanath\_exploring\_2024\]。然而,该研究只解决了一个道德困境,缺乏多重困境的复杂性,且动作空间有限。 另一种工程化美德行为的方法提出了基于逆强化学习\[berberich\_virtuous\_2018\]的方案,以亚里士多德的美德(如审慎、诚实、对人友善和节制)为基础。虽然逆强化学习能够捕获人类示范,但很难覆盖每种可能的场景,而且鉴于逆强化学习算法的复杂性,收敛性可能是一大挑战\[adams\_survey\_2022\]。文献\[govindarajulu\_toward\_2019\]提出了一种替代方案,基于美德与恶行开发美德行为的形式化模型。虽然这些都是良好的初步探索,但这些贡献需要通过模拟环境或真实世界进行实证评估。在我们的工作中,我们开发了一个游戏环境,让相互竞争与合作的智能体面对需要解决的道德困境。 ### 2.2 强化学习与期望行为 在机器伦理领域,Rodriguez 等人\[rodriguez\-soto\_instilling\_2022\]从理论和实践两个层面实现了一种多目标 RL(MORL)算法,同时包含奖励目标和伦理目标。他们在公共文明环境中展示了其性能——该环境的主要目标是从 A 点移动到 B 点,同时智能体可以在途中清理垃圾。研究人员使用 MORL 同时实现了两个目标。然而,这是一种纯粹的功利主义方法,需要定义第二个奖励函数来实现伦理目标。下文将分析这种仅依赖奖励函数的方法可能带来的问题。 训练 RL 智能体展现特定行为面临重大挑战。这一困难尤为突出,因为 RL 智能体依赖奖励函数,而奖励函数往往成为实现预期行为目标的障碍\[ng1999policy\]。**奖励塑形**通常被用作通过中间目标引导智能体趋向期望行为的方法。然而,该技术的一个挑战在于,智能体可能最终会利用中间奖励而非追求主要目标。此外,奖励塑形还加剧了智能体行为可解释性不足的问题\[reward\_hacking\]。 另一种称为**基于偏好的 RL** 的方法使用偏好而非数值奖励函数\[wirth2017survey\]。这样,智能体的行为可以被优雅地解释,因为其策略由人类专家展示的偏好所决定。然而,基于偏好的 RL 的问题在于其依赖于人类专家繁琐且详细的示范、样本效率低下,以及从偏好而非数值奖励中学习的计算复杂性。另一个挑战是其在连续状态和动作空间中的表现。 如上所述,奖励塑形和基于偏好的 RL 通过不同方式**激励**智能体趋向目标。另一种方法是通过安全 RL 和约束 RL\[garcia2015comprehensive,achiam2017constrained\] 来**阻止**灾难性的状态-动作组合,这些方法通过不同方式避免环境中的不良状态或动作。虽然这些技术可能采用奖励塑形并使用安全层来配置风险感知策略,但它们可能限制对环境的探索。在策略正则化等技术中,智能体被鼓励进行探索。正则化技术可以通过纳入先验信息来指导策略优化,从而为 RL 智能体赋予有利特性,这在多任务和迁移学习场景中尤为有利。
相似文章
公平强化学习
公平强化学习引入了民主对齐,以整合来自不同代理的多个竞争性价值集,克服了传统RLHF的局限性,并通过黑盒策略包装器实现了数量级更快的优化。
学习合作、竞争和沟通
OpenAI 展示了多智能体强化学习环境的研究,其中智能体学习合作、竞争和沟通。该论文介绍了 MADDPG(Multi-Agent DDPG),这是一种集中式评论家方法,能够让智能体比传统的分散式方法更有效地学习协作策略和沟通协议。
学习建模他人思维
OpenAI 和牛津大学研究人员提出了 LOLA(Learning with Opponent-Learning Awareness),这是一种强化学习方法,使智能体能够建模并考虑其他智能体的学习,在迭代囚徒困境和硬币游戏等多智能体博弈中发现合作策略。
SAVOIR:基于Shapley值奖励归因的社交技巧学习框架
SAVOIR框架将合作博弈论与Shapley值应用于语言智能体训练,显著提升其社交智能,在SOTOPIA基准上刷新SOTA,并达到GPT-4o水平。
学习探索:通过探索感知策略优化扩展代理推理
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。