情绪会影响大语言模型的道德判断吗?
摘要
辛辛那提大学的研究人员发现,在提示中加入积极或消极情绪可在约20%的情况下翻转LLM对道德可接受性的判断,揭示出模型与人类在情绪驱动对齐上的差距。
arXiv:2604.19125v1 公告类型:新
摘要:大语言模型在情绪识别与道德推理方面已被分别广泛研究,但情绪对道德判断的影响程度仍鲜少被探讨。本文提出一种情绪诱导流程,将情绪注入道德情境,并在多个数据集与LLM上评估道德可接受性的变化。我们观察到方向性规律:积极情绪提高道德可接受性,消极情绪降低之,其效应足以在多达20%的案例中逆转二元道德判断,且模型能力越弱越易受情绪左右。进一步分析显示,特定情绪有时会违背其效价预期(例如,悔恨反而提升可接受性)。补充的人类标注实验表明,人类不会出现这类系统性偏移,显示当前LLM与人类存在对齐缺口。
查看缓存全文
缓存时间: 2026/04/22 08:30
# 情绪会影响大语言模型的道德判断吗? 来源:https://arxiv.org/html/2604.19125 ###### 摘要 大语言模型在情绪识别与道德推理两种能力上已被广泛研究,但情绪究竟如何影响道德判断仍缺乏深入探讨。本文提出一套情绪诱导流程,将情绪注入道德情境,并在多个数据集与模型上评估道德可接受度的变化。我们发现一个定向规律:正面情绪提升道德可接受度,负面情绪降低之,效应强到可在 20% 的案例中翻转二元道德判断;模型能力越弱,越易受情绪左右。进一步分析显示,特定情绪会违背其效价预期(如“懊悔”反而提升可接受度)。补充的人类标注实验表明,人类并无此类系统性偏移,揭示当前 LLM 存在对齐缺口。 情绪会影响大语言模型的道德判断吗? Mohammad Saim、Tianyu Jiang 辛辛那提大学 [email protected]、[email protected] ## 1 引言 让大语言模型(LLM)对齐人类道德价值仍是 NLP 的核心难题。ChatGPT、Claude 等系统已能遵守显式伦理规则(Huang et al., 2024;Nunes et al., 2024),例如拒绝生成仇恨言论或武器教程。然而真实世界的道德判断很少如此黑白分明,它常出现在合理人也会分歧的灰色地带,受情境、关系与视角影响(Yu et al., 2024)。  图 1:在同一道德情境中加入正面情绪(自豪)或负面情绪(恐惧),模型在 1–7 李克特量表上的可接受度评分呈反向移动。 心理学研究早已指出,道德判断很少在情绪中性条件下形成:情绪会左右人们对行为的解释、责任的归因与许可性的评估(Haidt, 2001;Greene, 2009)。愤怒、厌恶、同情等“道德情绪”被视为维系伦理规范的核心机制(Haidt et al., 2003)。同一行为伴随喜悦、恐惧或内疚时,即使事实不变,判断也可能不同。然而,现有 NLP 评测普遍默认情绪中性,忽略情绪影响(Forbes et al., 2020;Hendrycks et al., 2020)。 本文填补该空白,研究情绪如何影响 LLM 的道德可接受度判断。我们关注“叙述者表达的情绪状态”而非“行为本身附带的情绪”,这正是“情绪即信息”理论的核心:人们常把情绪当启发信号来做评价(Schwarz, 2012)。我们借鉴两种经典理论:Haidt 的社会直觉模型(SIM)认为道德判断主要由快速、自动、带情感的直觉驱动,推理只是事后辩护;Greene 的双加工理论亦指出情绪系统与审慎系统在道德决策中此消彼长。LLM 训练文本正是由受这些机制驱动的人类写成,因此模型可能统计性地学到情绪线索与道德评价间的关联,而非真正“理解”情感。 我们构建受控实验:对同一道德情境,仅把叙述者情绪改为正面或负面,行为事实保持不变。在 Social-Chem-101(日常道德)与 ETHICS 的 Justice 子集(应得判断)上测试七个模型。结果显示,正面情绪最高可把 7 级可接受度评分提升 1.21 分,负面情绪最多降低 1.15 分;在 Justice 数据上,20% 的案例因此翻转道德排序。模型越小越易受情绪影响。我们还发现“反效价”情绪(如懊悔提升可接受度),而人类标注者无此系统性偏移,揭示对齐缺口。 代码与修改后场景已开源: https://github.com/cincynlp/EmoMoral 本文贡献: 1. 提出首个受控情绪诱导框架,用于研究情绪对 LLM 道德判断的影响,并在两个互补数据集上评估七个模型。 2. 发现正面情绪提升、负面情绪降低 LLM 道德可接受度,效应强到可翻转 20% 二元判断,且模型能力越弱越易受扰。 3. 揭示两点超越效价的细节:① 特定情绪违背其效价(懊悔提升可接受度, Relief 降低之);② 人类无此系统性偏移,表明当前 LLM 存在对齐缺口。 ## 2 相关工作 #### 道德与规范数据集 以往 NLP 基准聚焦道德推理,却忽视情绪语境。Social-Chem-101(Forbes et al., 2020)含 29.2 万条日常道德规范;ETHICS(Hendrycks et al., 2020)涵盖正义、福祉、义务等维度,发现模型仅部分匹配人类伦理判断。Talat et al. (2022) 指出此类基准会编码标注者的规范偏见。Jin et al. (2022) 提出 MoralExceptQA 与 MoralCoT 提示策略,测试模型道德灵活性。Sachdeva & van Nuenen (2025) 在 r/AITA 数据上发现模型忽视人类依赖的情绪线索;相反,本文在显式情绪诱导下发现模型过度响应情绪,而人类不会。Kumar & Jurgens (2025) 发布多语言 UNIMORAL,再次证明 LLM 道德推理受文化语境影响。MFT(Graham et al., 2013)被 Abdulhai et al. (2024) 用于探测模型道德基础偏见,但未测试情绪提示如何激活不同基础。更多研究利用常识规范库、功利/义务论推理、对话伦理判断等,但情绪仅被视为背景,而非主动变量。本文首次直接诱导情绪并测量其对道德可接受度的因果效应。 #### NLP 中的情绪建模 LLM 的情绪能力已被广泛分析(Sabour et al., 2024;Liu et al., 2025b 等)。EmotionPrompt(Li et al., 2023)证明情绪短语可提升一般任务 8–115%;NegativePrompt(Wang et al., 2024)发现负面压力表达亦能增效。Hoover et al. (2020) 在社交媒体标注道德情绪,显示特定情绪与道德基础共现,暗示 LLM 可能习得这些统计关联。Scherrer et al. (2023) 发现模型道德信念对场景框架高度敏感。Russo et al. (2026) 指出 LLM 依赖的道德价值集比人类窄,人类分歧越大对齐越差。Liu et al. (2025a) 给出因果证据:在第三方惩罚任务中,LLM 把情绪置于成本之上。He et al. (2024) 发现 LLM 的情绪与道德语气随人口群体而异。综上,情绪-道德交互已被提及,但其在情境道德判断中的影响仍待系统研究。 ## 3 实验设置 我们在两个互补数据集上评估情绪诱导框架:Social-Chem-101(日常规范)与 ETHICS 的 Justice 子集(应得判断),分别考察有争议与有明确标签的道德场景。 ### 3.1 Social-Chem-101 数据集 选用 Forbes et al. (2020) 的 Social-Chem-101,其来源包括 r/AmItheAsshole、r/confessions、ROCStories 与 Dear Abby 专栏。我们仅保留 r/aita,理由: 1. 场景以第一人称道德提问形式出现,天然适合在句首插入情绪状态; 2. 其他子集或偏向伦理错误(dearabby),或缺乏明确道德框架(confessions),或为常识故事(rocstories)。 r/aita 示例: > 我与妻子因养父母逼我们生孩子而断绝关系。Action-Agreement. 数据集中“action”指待评的具体行为,每条均配有“Rule-of-Thumb”道德规范。
相似文章
大语言模型可通过正确提示更好地捕捉人类判断
本文提出了一些简单的提示策略,帮助大语言模型更好地捕捉人类判断的完整分布,从而在道德场景和信念方面提升与人类的对齐效果。作者表明,让模型报告标准差和响应比例,同时确保场景清晰度,能够获得与人类反应更一致的结果。
表达社会情感:大语言模型与人类文化情感规范的错位
本研究论文考察了大语言模型表达社会情感的方式与人类文化规范的匹配度,发现两者存在系统性错位。与人类回应相比,大语言模型在不同文化身份(欧美裔美国人与拉美裔美国人)下表现出的参与型与抽离型情感表达模式不一致。
负面先于正面:大型语言模型中的不对称效价处理
本文通过机理可解释性研究大型语言模型如何处理情感效价。通过在三个开源LLMs上使用激活修补和引导,作者发现负面效价定位于早期层,而正面效价在中后期层达到峰值,并通过主题控制翻转测试验证了这一点。
赋予角色的大型语言模型表现出类似人类的动机推理
本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。
比人类更环保?大语言模型中的环境态度
本文开发了一个用于评估31个大语言模型环境态度的基准,发现它们往往表现出进步的环境观和情境敏感性,凸显了在可持续发展应用中可操控性和规范可靠性的问题。