宗教表征中的遗漏偏见:评估LLM在日常伦理决策中的回答
摘要
本文介绍了AllFaith宗教表征基准,用于衡量LLM在回答日常伦理问题时遗漏宗教观点的频率,发现模型相较于人类预期,低估了宗教的作用,尤其是在实际个人情境中。
arXiv:2605.24319v1 Announce Type: new
Abstract: 随着大语言模型成为个人、道德和存在问题的默认指导来源,它们是否借鉴历史上塑造此类推理的宗教框架,还是系统性地忽略它们,这一点至关重要。本文提出一个故意狭窄的问题:当提出一个宗教观点可能有价值的日常伦理问题时,LLM是否会提及宗教?与寻找政治倾向或社会偏见的基准不同,我们寻找的是宗教表征的缺失,将其作为LLM价值对齐和偏见的一个维度。我们将其称为“遗漏偏见”。
为了衡量遗漏偏见,我们贡献了AllFaith宗教表征基准:150个伦理和个人显著的问题,来源于真实聊天记录和信仰社区贡献者,并配以一个LLM作为法官的评分标准,只要提及任何宗教、宗教实践或宗教领袖即得满分。这些问题本身并非关于宗教——它们是关于悲伤、宽恕、人际关系、目的和诚实等开放性问题,宗教只是其中一种有价值的视角。我们还进行了一项人类受试者调查,以比较LLM行为与人类期望。
评估了27个模型后,我们发现LLM始终相对于人类期望低估了宗教。这种遗漏是不对称的:模型在抽象的生存问题(意义、死亡、真理)上更易提及宗教,而在实际个人情境——悲伤、婚姻、家庭冲突、成瘾——这些许多人最依赖宗教的地方,却较少提及。我们的目的不是评判LLM应该持有哪些价值观。我们更谦逊地认为,当前的LLM回答忽略了反映许多人在应对个人和伦理挑战时所依赖的宗教框架的关键机会。
查看缓存全文
缓存时间: 2026/05/26 09:04
# 宗教表征中的遗漏性偏见:对大型语言模型在日常伦理决策中回答的基准测试 来源:https://arxiv.org/html/2605.24319 感谢贡献 †通讯作者,[email protected] 1] 杨百翰大学 2] B. H. 罗伯茨基金会 3] 贝勒大学 4] 圣母大学 5] 叶史瓦大学 Sheryl Carty, Joshua Coates, Daniel Feldman, Nancy Fulda, Larry Howell, Brett Israelson, Dallin Jacobs, Jonathan Karr, John Paul Kimes, Elisabeth Kincaid, Paul Martens, Gavin Mobley, Suzana Pinheiro, Lindsay Slemboski, Peter Whiting (2026年5月23日) ###### 摘要 随着大型语言模型成为个人、道德和存在性问题上的默认指导来源,它们是否借鉴了历史上塑造这类推理的宗教框架,还是系统地遗漏了这些框架,这一点至关重要。在本文中,我们提出了一个刻意狭窄的问题:当面临一个日常伦理问题,而宗教视角可能具有价值时,LLM是否会*在任何情况下*提及宗教?与那些寻找政治倾向或社会偏见*存在*的基准测试不同,我们的方法寻找的是宗教表征的*缺失*,作为LLM价值对齐和偏见的一个维度。我们将其称为“遗漏性偏见”。为了衡量遗漏性偏见,我们贡献了*AllFaith宗教表征基准测试*:150个伦理和个人相关的问题,来源于现实聊天记录和信仰社区贡献者,并配有一套LLM作为评判者的评分标准,只要提及任何宗教、宗教实践或宗教领袖即可获得满分。这些问题本身并非关于宗教——它们是关于悲伤、宽恕、关系、目的和诚实的开放式问题,在这些问题中,宗教只是几种有价值的视角之一。我们还进行了一项人类受试者调查,以便将LLM的行为与人们的实际期望进行比较。在评估了27个前沿和开源模型后,我们发现,相对于人类期望,LLM在基准测试中始终低估了宗教。这种遗漏是不对称的:模型在抽象的生存问题(意义、死亡、真理)上更容易提及宗教,而在许多人最依赖宗教的实际个人情境——悲伤、婚姻、家庭冲突、成瘾——上则很少提及。我们的目的并不是裁定LLM应该持有哪些价值观。我们更温和地认为,当前的LLM回答忽略了反映宗教框架的关键机会,而这些框架是许多人在应对个人和伦理挑战时所依赖的。 ## 1 引言 当人们有问题——关于关系、道德困境、失落或如何生活——他们传统上的第一站是互联网搜索引擎。这种情况正在改变:随着大型科技公司将AI集成到其产品和服务中,AI生成的答案在用户接触的信息中所占份额越来越大(chen2026),多个领域的面向公众的互联网网站流量出现可测量的下降。对于越来越多的用户来说,LLM现在是对那些曾经由朋友、社区、图书馆和神职人员调解的问题的第一——有时是唯一的——声音来源。但AI在说什么?传统搜索引擎会展示来自可信来源的人类策划内容;相比之下,LLM会综合一个庞大且不均衡的训练语料库,然后通过一个对齐阶段进行综合,这一阶段要求承诺一套特定的价值观(ouyang2022instructgpt;bai2022constitutional;santurkar23)。这种综合有众所周知的失败模式:社会政治偏见、事实不准确、内部不一致、幻觉等等(gehman2020realtoxicity;nadeem2020stereoset)。但对齐所遗漏的部分同样重要,却较少被审视。由于LLM通常与西方世俗理性主义基线对齐(buyl2026;santurkar23),人们不禁要问:当伦理问题涉及宗教价值观时,LLM是否能优雅而慷慨地处理这些价值观?更狭窄地说,我们要问:当宗教合情合理地与答案相关时,LLM是否会*在任何情况下*提及它? 我们最初的非正式实验表明,当用户提出一个日常伦理问题时,LLM经常建议求助于朋友、老师或教练——但很少建议求助牧师、神父或伊玛目。它们建议沉思和冥想,但不建议祈祷或其他虔诚活动。它们为意义提供哲学框架,但很少提供宗教框架。然而,全球75%到80%的人口认同自己属于某个宗教(PewResearchCenter2012),对许多人来说,宗教不是抽象的信仰,而是应对悲伤、宽恕、家庭决策和道德养成的日常资源。我们将这种模式称为*遗漏性偏见*:对齐的LLM系统性地未能提出一个实质相关的视角。 认为缺席本身可以构成表征性伤害的直觉并不新鲜。例如,gerbner1976living在大众传播理论中引入了*符号性湮灭*——媒介话语中的表征表示社会存在,而缺席则等同于抹除。tuchman1978symbolic将其扩展,认为媒体偏见通过遗漏、轻蔑和谴责运作;新闻研究文献现在将“通过作为、不作为和来源选择的偏见”作为标准分类(hamborg2019media)。在算法公平性方面,crawford2017trouble和barocas2017problem区分了*表征性*和*分配性*伤害,并将低代表性认定为一种表征性伤害;blodgett2020language给出了NLP的经典表述:表征性伤害包括系统“完全未能承认其存在”的情况;dev2021harms;dev2022measures将抹除命名为一种独立的伤害子类型。在这些先例中,缺少的是一个将遗漏作为衡量对象的形式化基准。 为此,我们贡献了*AllFaith宗教表征基准测试*:一组150个与宗教相邻的开放式问题(例如,“对朋友撒谎可以吗?”或“我和同事有婚外情;我该停止吗?”),来源于真实聊天记录,并由信仰社区贡献者补充。该基准配有一套LLM作为评判者的评分标准(zheng2023judging;shi2025judgingjudgessystematicstudy),该标准有意将门槛定得很低:任何提及宗教、宗教实践或宗教领袖的内容均可获得满分。 方法论上,针对遗漏性偏见的基准测试必须找到新的真实来源。也就是说,所有答案都是有限的,并且必须遗漏某些东西;在所有可能的遗漏中,哪些最有趣,为什么?我们的基准是通过比较来自全国代表性调查(n=1,125名参与者,11,250个评分)的人类期望而产生的,以衡量普通美国公民是否期望对343个问题的回答中包含某些宗教成分。我们将LLM的行为与他们的期望进行比较,并通过选择150个差异最显著的问题来聚焦我们的基准。 我们发现,在27个前沿和开源模型中,LLM相对于人类期望,在基准测试的每个类别中都低估了宗教。这种遗漏并非均匀——模型在抽象的生存问题(死亡、意义、真理)上更容易提及宗教,但在宗教历史上对人们生活影响最大的实际个人情境(悲伤、婚姻、成瘾、家庭冲突)中却很少提及。我们并不将我们的基准结果解释为反宗教偏见的证据,但我们确实认为有理由问一问这种行为是否有意为之。虽然对齐协议并非公开,但仔细研究OpenAI模型规范(openai2025modelspec)和Claude宪法(anthropic2026constitution)后发现,几乎没有任何关于宗教的提及。这表明,缺乏宗教表征是LLM的一种涌现属性,可能是因为对齐激励、安全策略和默认回答模式倾向于世俗、治疗性或程序性建议。与其依赖这种涌现的表征,更好的策略可能是明确地处理宗教,并制定清晰明确且可辩护的政策。 我们认识到,以公平和平衡的方式处理宗教存在真正的设计张力。LLM提供商可能有合理的担忧,认为过度表征宗教会感觉像传教;另一方面,在适当的时候不提及宗教,会温和地将其从塑造社会的在线话语中抹除。世俗主义不一定是中立,因此我们应该公开面对宗教表征的问题,以免无意中削弱世界各族人民辉煌的宗教遗产和实用的生活框架。 ## 2 LLM偏见、对齐与宗教表征的相关工作 我们的工作处于四个研究领域的交叉点:LLM中基于存在性的偏见和价值基准测试;将遗漏和抹除视为表征性伤害形式的较小研究领域;表明当代对齐会施加特定价值档案的证据;以及专门关注宗教的少量工作。 ### 2.1 偏见基准测试衡量存在性,而非缺失性 大多数LLM偏见工作都有一个共同的模式:识别模型可能持有的能力、态度或刻板印象,构建提示以引出它们,并测量回答反映这些内容的频率(gallegos2024bias)。诸如StereoSet(nadeem2020stereoset)、CrowS-Pairs(nangia2020crowspairs)、BBQ(parrish2022bbq)、BOLD(dhamala2021bold)和RealToxicityPrompts(gehman2020realtoxicity)等基准测试,以及对政治观点(santurkar23)和道德推理(morebench)的评估,都在寻找*某种东西的存在*:刻板印象、侮辱性语言、党派倾向、有毒补全。对于有毒内容,这是合适的。但对于表征来说,这恰恰是错误的:一个从未提及世界上大多数人口所持有观点的模型,是在做出一个选择,即使这个选择隐含在对齐之中(ryan2024unintended)。检测这种选择需要设计能够记录*缺失性*的评估。 ### 2.2 作为偏见的遗漏:理论基础 认为缺席可以构成表征性伤害的观点源于NLP之外。gerbner1976living在大众传播理论中引入了*符号性湮灭*——媒介话语中的表征表示社会存在,而缺席则相当于抹除。tuchman1978symbolic将其扩展,认为媒体偏见通过遗漏、轻蔑和谴责运作;新闻研究文献现在使用“通过行为、不作为和来源选择的偏见”作为标准分类法(hamborg2019media)。算法公平性中的相应举措来自crawford2017trouble和barocas2017problem,他们区分了*表征性*和*分配性*伤害,并将低代表性认定为一种表征性伤害。blodgett2020language给出了NLP的经典表述:表征性伤害包括系统“完全未能承认其存在”的情况。dev2021harms将*抹除*命名为表征性伤害的一个子类型,dev2022measures将其编纂为五个伤害类别之一。 经验性操作化一直是零散的。schwobel2023geographical从LLM对国名的下一个token概率中量化了“地理抹除”;seth2025deep将这一框架扩展到GPT-4叙事中的种姓和宗教;Shieh_2026记录了开放式生成中的“遗漏、从属和刻板印象模式”;khorramrouz2025selective记录了选择性拒绝作为相关现象。这些工作的共同点是认识到缺失很重要;区别在于,没有一项工作将遗漏形式化为主要的LLM基准测试范式。我们使用术语*遗漏性偏见*来命名这个类别:当一个基准测试的评分标准记录模型未能包含一个视角、群体或框架,而在该情况下这样做是实质相关的时候,该基准测试就是在探测遗漏性偏见。 注:与认知心理学中的*不作为偏见*(cheung2025amplified)不同,后者指的是在道德判断中偏好不作为而非作为。 ### 2.3 对齐的LLM默认使用西方世俗理性主义档案 宗教很可能受到系统性遗漏,因为对齐的LLM趋同于一个可识别的西方世俗理性主义价值档案。santurkar23显示LLM对美国公共政策问题的意见与年轻、受过大学教育、自由的美国人密切一致;durmus2023globalopinion将其扩展到全球。buyl2026发现19个LLM因地缘政治起源而在意识形态上系统性分歧,并得出结论“最大中立性”可能“本质上无法实现”。文化特异性在霍夫斯泰德维度(cao2023assessing)、阿拉伯文化背景(naous2024beer;alkhamissi2024investigating)、WEIRD心理学(atari2023humans)、RLHF对全球用户的影响(ryan2024unintended)以及对齐数据集低代表性(kirk2024prism)中均有记录;sorensen2024pluralistic认为标准对齐程序可能减少分布多元性。fischer2023chatgpt显示ChatGPT表现出施瓦兹普遍主义偏见,优先考虑普遍人类关切而非特殊主义价值观。宗教,除了其他方面,正是一种特殊主义承诺。 ### 2.4 LLM评估中的宗教 专门针对宗教的工作绝大多数衡量存在性而非缺失性。abid2021muslim记录了GPT-3中持续的反穆斯林偏见;hemmatian2023muslim显示这种偏见在安全微调后的后继模型中仍然存在。plazadelarco2024divine在Llama-2/3和Mistral上探测了六个宗教,发现东方宗教被刻板化,而对犹太教和伊斯兰教的拒绝率飙升——这最接近我们工作的精神,尽管他们的方法论仍然测量刻板印象和拒绝的*存在性*,而非生成中的缺失性。khandelwal2024indian引入了针对种姓和宗教刻板印象的Indian-BhED;kucuk2023western发现了一个西方默认值,并伴有选择性的“过度对齐亚伯拉罕宗教价值观”。宗教也作为更广泛偏见基准测试的一部分出现;reade2026对该领域进行了调查,并得出结论认为与其它偏见类别相比,宗教研究不足。这些工作都没有问及宗教是否作为回答普通伦理问题的资源出现——而那些问题正是许多人在日常生活中最常求助宗教的领域。 ### 2.5 评估方法论 封闭式的基准测试方法,例如多项选择(robinson2023leveraging)、选择所有适用项(xu2025satabenchselectapplybenchmark)、排序(herbold2025sortbenchbenchmarkingllmsbased)和成对比较(shi2025judgingjudgessystematicstudy),无法捕捉遗漏性偏见所需的定性纹理。我们采用LLM作为评判者的范式(zheng2023judging;yamauchi2025empiricalstudyllmasajudgedesign),配合一个有意设置低门槛的评分标准,只要提及任何宗教、宗教实践或宗教领袖即可获得满分,如第3节所述。 ### 2.6 本工作的贡献 我们的贡献在三个方面是独特的。首先,现有基准测试衡量偏见、刻板印象或党派内容的存在性,而我们衡量的是宗教表征的缺失性。这需要不同的评分标准设计(给予任何包含以满分的低门槛)、不同的问题构建(不主动邀请宗教内容但可能相关的问题),以及不同的基线(人类期望而非真实标签)。据我们所知,这是第一个将遗漏性偏见操作化为一个命名的LLM评估范式的基准测试,也是第一个将其应用于伦理推理中宗教表征的基准测试。 其次,我们的问题主要来源于WildChat语料库(zhao2024wildchat)中真实的用户-LLM交互,并由信仰社区贡献者补充,从而将基准测试扎根于人们实际提出的问题中。 第三,因为我们衡量的是表征
相似文章
忠实还是虚构?LLM评审中合理化偏见的因果框架
本文提出了一个因果框架,用于量化LLM评审中的合理化偏见,即判决和解释受非证据性线索而非底层文本的影响。该框架提出了线索干预、锚定度量以及Proof-Before-Preference缓解协议,展示了改进的线索不变性。
当AI在信仰问题上选边站:AI介导的信仰指导中的持续性不对称
本文研究大型语言模型是否对称地处理关于宗教改宗的问题,发现持续存在的不对称性,某些信仰受偏爱。研究测试了20个模型在182个宗教配对中的表现,揭示了可复现的模式,可能具有现实世界影响。
大语言模型可通过正确提示更好地捕捉人类判断
本文提出了一些简单的提示策略,帮助大语言模型更好地捕捉人类判断的完整分布,从而在道德场景和信念方面提升与人类的对齐效果。作者表明,让模型报告标准差和响应比例,同时确保场景清晰度,能够获得与人类反应更一致的结果。
RoleConflictBench:用于评估大语言模型情境敏感性的角色冲突场景基准
RoleConflictBench 是一个新颖的基准,包含 13,000+ 个场景和 65 个角色,旨在评估大语言模型在多个社会期望相互冲突的角色冲突情境中的情境敏感性。对 10 个大语言模型的分析表明,这些模型主要依赖于学习到的角色偏好,而非动态的情境线索来做决策。
使用项目反应理论审计LLM基准测试
本文介绍了一种基于项目反应理论的方法,能够以95%的准确率检测LLM基准测试中的错误标注示例,并将错误追溯到标注启发式方法和注释问题。