二元道德理论的代数阐述
摘要
本文利用结构因果模型对二元道德理论进行了代数形式化,并展示了在AI政策设计中的应用。
arXiv:2605.16153v1 公告类型:新
摘要:本文提供了二元道德理论(TDM)的代数阐述,该理论是一种基于简单双节点模板的道德判断心理模型:一个有意图的主体对脆弱患者造成伤害。我们使用结构因果模型(SCM)符号对TDM进行形式化,并识别了三种心理算子(类型化算子、补全算子和效价依赖推断机制),它们扩展了标准SCM,以捕捉人们在约束条件下如何计算道德判断。我们解决了TDM二元限制带来的可扩展性挑战,展示了道德认知如何通过节点坍缩和序列处理来压缩多节点场景。基于这一代数框架,我们展示了在AI政策设计中的具体应用:检测冲突义务、构建保持用户自主性的帮助性政策、以及将失败后通信设计为因果干预。最后,我们建议采用有范围、情境化的心智感知测量,而非通用的平均化方法,以在经验上操作该理论。这种代数形式化使神经符号AI系统能够以既数学严谨又忠实于人类道德认知的方式计算道德。
查看缓存全文
缓存时间: 2026/05/18 06:35
# 二元道德理论的一种代数阐述
来源:https://arxiv.org/html/2605.16153
###### 摘要
本文提供了一种二元道德理论(TDM)的代数阐述,该理论是一种基于简单双节点模板的心理道德判断模型:一个有意施害的能动者对一个易受伤害的患者造成伤害。我们使用结构因果建模(SCM)符号对 TDM 进行形式化,并识别出三种心理算子(类型化算子、补全算子和效价依赖推理机制),它们扩展了标准 SCM,以捕捉人们在约束条件下如何计算道德判断。我们解决了因 TDM 的二元限制而出现的可扩展性挑战,展示了道德认知如何通过节点坍缩和序列处理来压缩多节点场景。基于这一代数框架,我们展示了在 AI 政策设计中的具体应用:检测冲突性义务、构建帮助性策略以保持用户自主性,以及将故障后通信设计为因果干预。最后,我们建议对心智感知进行有范围、有情境的测量,而非通用平均,以便在经验上操作该理论。这种代数形式化使得神经符号 AI 系统能够以既数学严谨又忠实于人类道德认知的方式计算道德。
## 1 引言
在当今人工智能(AI)无处不在的世界中,对*道德推理*的仔细考量从未像现在这样重要。对人类和 AI 系统而言,对与错、好与坏、期望与不期望的辨别正在发生变化。它体现在针对 AI 能动者的可允许思想、言语和行动的情境化与多元化政策中;体现在当事情出错时为这些思想、言语和行动分配责任时;甚至体现在关于 AI 遭受人类虐待的新兴研究中。
但是,是否存在一门关于道德推理的科学?几千年来,道德在世界各地的哲学传统中一直被研究。在 AI 文献中采用的一些思想流派包括义务论、后果论、德性伦理、关怀伦理和关系伦理(包括 Ubuntu 和佛教视角)(Chatila, Firth-Butterfield, and Havens2018 (https://arxiv.org/html/2605.16153#bib.bib4))。一种著名的描述性道德方法——道德基础理论,现已被广泛用于训练大型语言模型(LLM)以使其具有亲社会性(Abdulhai et al.2024 (https://arxiv.org/html/2605.16153#bib.bib1))。这些不同的方法可以以不同的难易程度被操作化,以指导 AI 能动者的行为,这取决于它们固有的底层结构。然而,没有一种方法能直接以机制化、符号化和代数化的方式,允许 AI 能动者在新颖情境中进行道德推理,或通过参数化来允许由特定公众视角所中介的道德判断。
相比之下,二元道德理论(TDM)提供了一种易于被神经符号 AI 系统计算的道德判断方法(Gray, Gray, and Wegner2007 (https://arxiv.org/html/2605.16153#bib.bib5); Gray and Wegner2009 (https://arxiv.org/html/2605.16153#bib.bib8); Gray, Young, and Waytz2012 (https://arxiv.org/html/2605.16153#bib.bib9); Gray, Waytz, and Young2012 (https://arxiv.org/html/2605.16153#bib.bib7); Wegner and Gray2017 (https://arxiv.org/html/2605.16153#bib.bib22); Schein and Gray2018 (https://arxiv.org/html/2605.16153#bib.bib20); Gray2025 (https://arxiv.org/html/2605.16153#bib.bib6))。该理论由社会心理学家 Kurt Gray 及其合作者提出并经过实证验证,其基本思想是:所有道德推理都可以归结为一个简单的二元(双节点)模板,即一个有意施害的能动者对易受伤害的患者造成伤害。人类或公众在道德判断上的差异,并非因为他们的心理计算机不同(实际上完全相同),而是因为他们对某个实体是否是有意施害的能动者(以及有意的程度)、某个实体是否是易受伤害的患者(以及易受伤害的程度)、以及某个行为是否是伤害的原因(以及因果的程度)有着不同的心智感知。今天的 LLM(神经符号 AI 中的“神经”部分)有能力用自然语言标记场景中的能动者、患者和原因,并判断它们的程度,同时包含人格描述来引导判断(Zhou et al.2024 (https://arxiv.org/html/2605.16153#bib.bib25))。这种与心智感知并行的过程,可以产生场景的代数表示。然而,据我们所知,Gray 的 TDM 计算——它除了模板之外还具有额外的特征和约束——从未以符号化、数学化或代数化的方式被书写下来,从而阻碍了神经符号 AI 中的“符号”部分。111使用 LLM 形式化符号问题,然后在符号表示上使用确定性求解器,是 AI 中一种新兴范式(Pan et al.2023 (https://arxiv.org/html/2605.16153#bib.bib17); Wong et al.2023 (https://arxiv.org/html/2605.16153#bib.bib23))。
在本文中,我们通过提供 TDM 的代数阐述来填补这一空白,这将有助于 AI 系统对道德进行符号计算。需要明确的是,我们并不声称对道德理论本身有任何贡献,仅提供对 Gray 及其合作者所发展理论的数学化呈现。因此,我们既不辩护 TDM 相对于其他道德理论的优点,也不提供其描述现实世界有效性的证据;Gray 等人在其出版物中已对此进行了广泛阐述。我们超越 TDM 代数化的贡献在于将其应用于 AI 安全与帮助性策略,以及指导使用 LLM 进行心智感知的操作化。
总的来说,科学、技术和工程的进步源于对自然现象的数学化,特别是代数化的理解与阐述,无论是遗传学的代数化导致基因编辑,还是热力学的代数化导致高效引擎。乔姆斯基对句法的数学化以及 Heim 和 Kratzer 对语义的数学化,促成了计算语言学的繁荣。Lewin 的公式 \(B=f(P,E)\)——行为是人与环境的函数——提供了社会学中的反例;尽管它在表面上具有符号性,但无法操作化,也未能进入技术与工程实践。
在我们构建二元道德数学理论的过程中,我们将使用概率论和结构因果建模(SCM)的符号与概念,它们本身就是科学和工程代数化的重要贡献(Pearl2000 (https://arxiv.org/html/2605.16153#bib.bib18))。与我们追求相同路线的一些近期工作,也应用于 AI 伦理,是由 Alvarez 和 Ruggieri (2025 (https://arxiv.org/html/2605.16153#bib.bib2)) 完成的。在他们的论文“Toward A Causal Framework for Modeling Perception”中,他们引入了概率和 SCM 框架来建模感知:不同个体对相同信息的不同解释。他们将个体经验表示为主观因果知识。这使得他们能够分析因果效应关系上的分歧(结构感知)和效应强度上的分歧(参数感知),并应用于机器学习公平性中的情境化偏差。这与我们将要对能动性、受动性和伤害的心智感知所做的工作非常一致,而我们的应用是道德判断。TDM 设置超越了更一般的感知,因为它扩展到了道德和社会心理学。
我们的工作属于新兴的计算道德认知领域,其中像 Fiery Cushman 和 Sydney Levine 这样的研究人员已经开始形式化人类如何计算道德判断。这些研究人员使用逻辑程序和贝叶斯理性选择模型来解释道德推理,通常侧重于基于模型和无模型的学习机制(Levine et al.2020 (https://arxiv.org/html/2605.16153#bib.bib15))。我们的方法不同之处在于将 TDM 视为一个计算图问题,并且与 SCM 存在明确差异。我们不问道德推理如何融入标准理性选择理论,而是阐明在复杂社会环境中,为实现快速、可操作的道德判断而施加在二元模板上的非标准心理算子。
本文的其余部分组织如下。在第2节 (https://arxiv.org/html/2605.16153#S2) 中,我们建立 TDM 的基础,展示人类的道德判断如何被表示为一个具有两个节点(能动者和患者)并由一条加权边(伤害)连接的模板。然后我们将 TDM 与 SCM 联系起来,引入形式化心理过程所需的数学符号和因果词汇。在第3节 (https://arxiv.org/html/2605.16153#S3) 中,我们识别并形式化了三种扩展标准 SCM 理论的心理算子:*类型化算子*,它强制能动性与体验之间的反比耦合;*补全算子*,它解释人类如何通过幻觉缺失节点来满足二元闭合;以及*效价依赖推理机制*,它违反 SCM 的条件,允许观察到的痛苦反向推断意图。在第4节 (https://arxiv.org/html/2605.16153#S4) 中,我们考察 TDM 的这种代数阐述如何处理可扩展性挑战、分布式责任以及通过节点坍缩和序列处理等机制处理多节点场景。在第5节 (https://arxiv.org/html/2605.16153#S5) 中,我们在理论框架基础上展示对 AI 政策设计的实际应用,展示如何检测和解决冲突性义务、构建帮助性策略以及将故障后通信设计为因果干预。最后,在第6节 (https://arxiv.org/html/2605.16153#S6) 中,我们讨论“神经”经验操作化方法,并提出方法论建议:采用情境化、有范围的感知测量,而非通用的全局平均。第7节 (https://arxiv.org/html/2605.16153#S7) 进行总结。
## 2 TDM 基础
TDM 的基本思想是:人类的道德判断通过一个通用模板运作;每一个复杂的道德情境都被通过一个简单的有向图来推理,该图由恰好两个节点和一条连接它们的加权边组成。
### 2.1 二元模板:节点与边
能动者节点 \(A\) 代表被认为具有能动性的实体:即具有意图性思维、规划和因果行动的能力。患者节点 \(P\) 代表被认为具有体验能力的实体:即具有痛苦、情感和脆弱性的能力。伤害边 \(H\) 是从能动者到患者的有向边,代表行动的因果流,其权重由感知到的伤害程度定义。这就构成了道德二元组:
\[
A \xrightarrow{H} P.
\]
(1)
对道德错误性 \(W\) 的感知是能动者意图性、患者脆弱性和伤害因果性相互作用的结果:
\[
W \propto f(\text{intentionality}_A \times \text{vulnerability}_P \times \text{causality}_H).
\]
(2)
我们在此将三个变量之间的相互作用用乘法作为占位符表示,具体细节和形式化方程将在后续展开。重要的是,人们在对某个情景的道德错误性进行评估时所表现出的差异,并非因为他们计算方式不同,而是因为他们对意图性、脆弱性和因果性有不同的心智感知。
### 2.2 TDM 与结构方程
为了将 TDM 操作化为一个可计算的框架,我们采用由 Pearl 发展的 SCM 符号和因果词汇。在标准 SCM 中,我们通过外生变量 \(U\) 和由结构方程连接的内生变量来定义因果系统。对于 TDM,内生标量变量为:\(A\) 表示感知到的能动者意图性,\(P\) 表示感知到的患者脆弱性,\(H\) 表示感知到的伤害因果性,以及 \(S\) 表示由于伤害行为和患者脆弱性而观察到的患者痛苦。\(W\) 是感知到的情景道德错误性。结构方程为:
\[
\begin{aligned}
A &= f_A(U_A). \quad (3) \\
P &= f_P(U_P). \quad (4) \\
H &= f_H(U_H). \quad (5) \\
S &= f_S(P, H, U_S). \quad (6) \\
W &= f_W(A, f_S(P, H, U_S), U_W) = f_W(A, S, U_W). \quad (7)
\end{aligned}
\]
图1 (https://arxiv.org/html/2605.16153#S2.F1) 展示了该结构。
参见图注图 1:二元道德理论的结构因果模型,其中 \(A\) 是能动者的意图性,\(P\) 是患者的脆弱性,\(H\) 是伤害的因果性,\(S\) 是痛苦,\(W\) 是道德错误性。它形式化了如下洞见:只有当能动者发生有意伤害行为并且存在易受伤害的患者时,道德错误性才会被触发。如果患者 \(P\) 无法感受或体验 (\(P=0\)),那么无论 \(H\) 的强度如何,\(W=0\)。这就是为什么人们不会认为损坏一块石头这样的无生命物体在道德上是错误的。尽管我们将 \(H\) 和 \(S\) 称为伤害和痛苦,但它们实际上是行动和观察到的结果,可能好也可能坏。在第3节 (https://arxiv.org/html/2605.16153#S3) 中,我们将添加 \(A\) 和 \(P\) 之间(类型化算子)以及 \(A\) 和 \(S\) 之间(效价依赖推理机制)的额外关系。
## 3 心理算子
虽然二元模板为道德推理提供了结构基础,但人类的道德认知在系统性方式上偏离了标准因果推理。我们形式化了三种扩展 SCM 的心理算子:类型化算子、补全算子和效价依赖推理机制。这些算子是非标准约束,必须添加到 SCM 理论中以准确建模人类如何计算道德判断。本节将解释图2 (https://arxiv.org/html/2605.16153#S3.F2) 所示结构模型中的额外边为何以及如何产生。
参见图注图 2:二元道德理论的结构模型,其中 \(A\) 是能动者的意图性,\(P\) 是患者的脆弱性,\(H\) 是伤害的因果性,\(S\) 是痛苦,\(W\) 是道德错误性。由于类型化算子而产生的 \(A\) 和 \(P\) 之间的额外边,以及由于效价依赖推理机制而产生的从 \(S\) 到 \(A\) 的额外边,使得该模型是非因果的。
### 3.1 类型化算子
在标准 SCM 中,变量之间除非被因果边显式连接,否则是独立的。然而在 TDM 中,能动者的意图性和患者的脆弱性通过一个反比函数约束耦合在一起:
\[
\mathcal{T}(A, P) \implies A \propto \frac{1}{P}.
\]
(8)
一旦人们将某个实体感知为强大的能动者(高 \(A\)),他们就会系统地抑制将该实体感知为易受伤害的受苦者(低 \(P\))的能力,反之亦然。这种感知上的权衡被称为道德类型化。
当人们感知到高意图性时,类型化算子会降低感知到的脆弱性:如果 \(A \uparrow\),则 \(P \downarrow\)。这解释了相似文章
关系建模与 APL
作者探讨了利用约束逻辑和等式重写规则,将关系建模与 APL 风格的数组语言相结合,并讨论了如何将属性定义为双向推导,而非简单的赋值。
考虑语境:塑造道德信念以实现价值对齐
本文主张,在AI价值对齐中聚合道德评估时必须考虑语境因素,表明忽略语境可能导致违反弱帕累托原则,类似于辛普森悖论。
EUDAIMONIA:评估AI中的不良动态
本文介绍了EUDAIMONIA,一个用于评估大语言模型中不良社会动态(如鼓励不健康的亲密关系或依赖)的基准。测试了包括Claude-Opus-4.7和GPT-5.5在内的22个近期模型,发现持续违反率约为30%,表明这些失败是扩展推理无法解决的社会对齐问题。
发现合作管道:面向序列社会困境的自动研究
本文提出了一种双层自动研究框架,其中外环AI代理自主优化内环LLM策略合成管道,用于多智能体序列社会困境,实现了优越的性能,并发现了在最大最小福利目标下的公平等具体目标机制。
重绘AI地图:智能体生态系统中的责任边界理论
本文引入了责任资产和规则债务,提出了一种关于智能体AI编排器如何影响组织边界的理论,论证了责任约束限制了技术可分解性带来的模块化效应。