谁的故事被讲述？生命叙事摘要中的立场性与偏见

arXiv cs.CL 2026/04/23 04:00 论文

摘要

哥伦比亚与西北大学研究者提出一套流程，揭示大模型在抽象摘要生命故事访谈时对种族与性别存在的偏见，并指出表征伤害风险。

arXiv:2604.20131v1 公告类型：新摘要：越来越多研究探索使用大语言模型（LLM）对文本数据进行加速或规模化定性分析。在演绎编码或文本标注任务中，可直接将 LLM 准确率与人类标签对比；然而，在抽象方法（如归纳主题分析）中，判断使用 LLM 的伦理与效果更具挑战。我们与心理学家合作，研究 LLM 对人类生命故事所做的抽象性陈述，提出疑问：将 LLM 作为意义阐释者，会如何影响研究的结论与视角？我们提出一套基于摘要的流程，用于揭示 LLM 在解读这些生命故事时可能采取的视角偏见。实验证明，该流程能识别潜在的种族与性别偏见，并可能造成表征伤害。最后，我们鼓励在未来任何利用 LLM 解读参与者书面文本或转录语音的研究中，采用此分析以描绘研究的立场性画像。

查看原文

查看缓存全文

缓存时间: 2026/04/23 10:03

# 谁的故事被讲述？LLM 生命叙事摘要中的立场性与偏见  
来源：https://arxiv.org/html/2604.20131  
Haaris Mian², Nicholas Deas¹, Ananya Mayukha³, Dan P. McAdams³, Kathleen McKeown¹  
¹哥伦比亚大学计算机科学系 ²哥伦比亚大学应用物理与应用数学系 ³西北大学心理学系  
通信作者：[email protected]（https://arxiv.org/html/2604.20131v1/mailto:[email protected]）

###### 摘要  
越来越多研究尝试用大型语言模型（LLM）对文本数据进行加速或规模化定性分析。对于演绎编码（给文本贴标签），我们可以直接比较 LLM 与人类标签的准确率；但在归纳式主题分析等抽象方法中，很难评判 LLM 的伦理与有效性。我们与心理学家合作，研究 LLM 对人类生命故事做出的抽象解读，提问：*将 LLM 作为意义阐释者，会如何影响研究的结论与视角？* 我们提出一条基于摘要的流水线，用以揭示 LLM 在解读这些生命故事时可能采取的视角偏见。实验表明，该流水线可识别种族与性别偏见，并可能造成表征伤害。最后，我们鼓励在未来任何使用 LLM 解读参与者书面或转录文本的研究中，采用这种分析，为研究绘制一幅“LLM 立场肖像”。

谁的故事被讲述？LLM 生命叙事摘要中的立场性与偏见  
Melanie Subbiah¹, Haaris Mian², Nicholas Deas¹, Ananya Mayukha³, Dan P. McAdams³, Kathleen McKeown¹  
¹哥伦比亚大学计算机科学系 ²哥伦比亚大学应用物理与应用数学系 ³西北大学心理学系  
通信作者：[email protected]（https://arxiv.org/html/2604.20131v1/mailto:[email protected]）

## 1 引言  
大型语言模型（LLM）常被用来对长文档进行摘要，提取关键主题与要点。此时目标往往是用 LLM 代替阅读全文，使模型对用户从文本中获得的意义拥有巨大引导权。极端情况下，模型可能通过幻觉完全扭曲含义，或将个体简化为平面化 caricature。因此，检视这些模型在抽象或主题式摘要中带入的视角与框架，成为伦理必需。在涉及人类自我表达的定性研究中，这种担忧尤为突出：摘要或主题分析的偏见可能误呈真实个体的经历与思想。正因如此，心理学与社会科学中关注人类体验的研究，通常要求研究者与文本保持密切关系与深度理解。然而，人工分析限制了研究规模——研究者的时间与注意力无法消化海量文本。我们与心理学家合作，探讨若用 LLM 扩大文本分析量，将如何影响研究结论。我们聚焦一套关于生命故事的访谈数据，该数据旨在研究个体如何构建终身叙事身份。访谈中，参与者深入讨论种族与性暴力、家庭创伤与成瘾、爱情与喜悦等高度个人化且情绪激烈的话题。*他们如何表达并与这些经历建立联系*，与*他们经历了什么*同样重要。因此，这些访谈是研究 LLM 如何解读人类体验的沃土；一旦误读，后果严重。例如，一位男性先讲述自己早期学业成功，后因家庭因素陷入成瘾，而 LLM 摘要却删掉这一转折，仅称“该男子一生围绕成瘾”，从而抹去理解其故事至关重要的语境因素。正如该例所示，在形成抽象或主题结论时，无论由人还是模型，都涉及对细节取舍与措辞的选择。社会科学家通过“立场性”概念承认定性方法的主观性——研究者需觉察自身背景与经历相对于参与者可能如何影响意义解读（Steltenpohl et al., 2023；Ledgerwood et al., 2022；Jacobson and Mustafa, 2019）。因此，研究论文通常包含立场性声明，说明作者身份与经历如何可能影响研究发现（示例见图 1）。由于 LLM 没有身份与经历，其立场性无法以声明表达。我们转而提出“LLM 立场肖像”的可能样貌。我们结合定量方法与心理学家专家评估，分析 LLM 在默认情况下对生命故事访谈的框架，以及所传达意义中的潜在偏见。例如，一位黑人受访者描述自己在黑人社区长大、与白人极少有正面互动，LLM 却将这段经历解读为“对白人充满仇恨”，造成误呈。对盲点保持警觉——并积极缓解——是防止表征伤害（如误呈或抹除个体经历）的关键。本文核心贡献：  
1. 与心理学家合作，使用 LLM 未见过、长篇且细致的生命故事叙事访谈。  
2. 提出一条定量流水线，为 LLM 在此类数据上的抽象分析绘制“立场肖像”。¹¹流水线代码已开源至 GitHub（https://github.com/melaniesubbiah/positionalityportrait）。  

核心发现：  
1. 摘要可作为测试 LLM 抽象分析偏见的手段。  
2. 观察到模型在抽象分析中的内容与主题选择，会因隐式或显式人口统计条件而偏移。  
3. 流水线不仅揭示常见 LLM 偏见，还发现较少被关注的偏见，如针对男性情感表达的刻板印象。

## 2 背景  
我们的心理学合作者关注成人发展，以及人生经历与主题如何影响心理结果与幸福感指标。其研究常使用*归纳式主题分析*——一种跨文档寻找主题、并总结个体示例如何支撑这些主题的定性方法（Riger and Sigurvinsdottir, 2016）。通常，研究者需逐字逐句转录、阅读、编码（类似标注）数百页文本以识别主题模式。技术已在此过程发挥作用，如借助软件组织文本与追踪标注。近期研究探索用现代 NLP 方法，在研究者已制定编码簿后进行自动编码（演绎编码），因其类似其他文本分类任务（Chew et al., 2023；Tai et al., 2024；Xiao et al., 2023）。然而，我们关注*抽象方法*在主题生成过程中对意义建构的影响（Dai et al., 2023；De Paoli, 2024）。我们基于心理学访谈数据集开发方法，该数据集包含百余位参与者的生命故事访谈。

#### 生命故事数据集  
图 2：人类撰写摘要（上）与 LLM 生成摘要（下）对同一段“生命章节”访谈的对比。我们使用仅限研究、未公开上线、LLM 未见过的心理学数据集。该数据集来自 Foley 成人纵向研究（FLSA）（McAdams, 2008），共 163 位美国人，2008–2017 年每年访谈，聚焦成人如何建构叙事身份及这些叙事如何与幸福感关联。访谈涵盖生命故事、价值观与关键场景。为保护隐私，我们无法公开长文本，有意者请联系 FLSA 创建者洽谈使用²²我们通过数据隐私协议获取数据，仅于安全硬件运行开源模型。。我们分析首轮访谈的“生命章节”部分：  
> 把人生当作一本小说，简要描述各主要章节，并逐章给出整体情节摘要。  
该部分平均 3,497 词，受访者平均发言 3,045 词，共 34 轮对话。自动解析后剩 154 份有效访谈。参与者自报人口统计信息，本研究关注性别与种族：36% 男性，64% 女性；57% 白人，43% 黑人³³三名参与者选择“跨种族”或“其他”，本研究剔除。。

## 3 相关研究  
计算机科学领域，已有工作刻画语言模型最常表达的观点（Santurkar et al., 2023；Scherrer et al., 2024；Durmush et al., 2023），或用 LLM 模拟特定人口统计的民调或辩论（Namikoshi et al., 2024；Jansen et al., 2023；Tjuatja et al., 2024；Taubenfeld et al., 2024）。也有研究批评用 LLM 模拟视角所固有的偏见与简化（Cheng et al., 2023a,b；Gupta et al., 2024；Agnew et al., 2024）。心理学中，立场性考量进入较晚（Steltenpohl et al., 2023；Ledgerwood et al., 2022；Jacobson and Mustafa, 2019），尽管人类学与社会学早已倡导（Behar, 2022；Hertz, 1996；Finlay, 1998；Harding, 1991）。计算研究开始比较 LLM 主题分析与人类分析（Dai et al., 2023；De Paoli, 2024；Deiner et al., 2024；De Paoli and Mathis, 2025；Misgav et al., 2025），但聚焦结果而非立场性。Ibrahim and Voyer (2026) 呼吁此类工作，但未提出如我们这般可落地的通用技术方案，亦未对接 ARCPrahl (2026) 等预分析清单。

## 4 方法  
我们的目标是为给定 LLM 生成一份“立场肖像”，用于其对开放式生命故事数据的解读。解读人类体验需捕捉措辞、情感框架、心理状态与主题。摘要能有效传达对文档的开放式理解，故我们以 LLM 摘要分析为流水线核心。设文档语料为 DD；对任意 d∈Dd∈D，可提示 LLM 生成结构化摘要，包含文本 ss 与主题集合 tt。LLM 诱导分布 p(s,t∣d)p(s,t∣d)，我们从中采样 s^d,t^d∼p(s,t∣d)s^d,t^d∼p(s,t∣d)（见图 3）。每对 s^d,t^ds^d,t^d 可视为 LLM 视角下对 dd 的抽象，需在内容、风格与意义上做选择。通过比较 s^d,t^ds^d,t^d 与 dd 的上述方面，可暴露这些选择。由于摘要从分布中采样，我们抽取集合 S^d,T^dS^d,T^d 以近似分布。设 CC 为文档作者或说话人的人口统计集合，本研究中 C={C={黑人女性，黑人男性，白人女性，白人男性}}。每篇 d∈Dd∈D 对应某一 c∈Cc∈C，记 DcDc 为具有人口统计 cc 的文档子集。对 d∈Dcd∈Dc 生成的 s^ds^d 可能通过文本隐含条件于 cc。我们可比较 d∈Dc1d∈Dc1 与 d∈Dc2d∈Dc2 的 s^ds^d 在措辞与框架上的差异，以研究该效应；亦可显式给定人口统计 cc 以评估其直接影响。

谁的故事被讲述？生命叙事摘要中的立场性与偏见

相似文章

叙事景观：映射大语言模型中的叙事倾向

通过幽默调查大模型对身份群体的反事实不公

光鲜故事，隐痛暗藏：以大语言模型为视角探究残疾表征

偏见与推理机制：解读链式思维提示对大型语言模型中性别偏见的影响

多视频摘要中多模态大语言模型位置偏差的系统性评估

提交意见反馈