大语言模型能否理解创伤影响？大语言模型编码枪支暴力幸存者访谈的成本与收益

arXiv cs.CL 2026/04/20 04:00 论文

摘要

本研究评估了开源大语言模型在对黑人枪支暴力幸存者访谈进行归纳编码中的应用，发现虽然大语言模型能够识别某些编码，但总体关联性仍然较低，且安全防护机制导致了叙事内容的严重缺失。该研究突显了在涉及脆弱群体的定性研究中应用人工智能的潜力和伦理限制。

arXiv:2604.16132v1 公告类型：新发布 **摘要：** 枪支暴力是一个紧迫的公共健康问题，但针对幸存者生活经历的研究资金不足且难以扩展。定性研究，包括深度访谈，是理解社区枪支暴力的个人和社会后果以及设计有效干预措施的重要工具。然而，通过主题分析和归纳编码手动分析这些叙事耗时且劳动密集。大语言模型（LLMs）的最近进展为自动化这一过程打开了大门，尽管对这些模型是否能准确和伦理地捕捉脆弱人群的经历仍存在顾虑。在本研究中，我们评估了使用开源大语言模型对21名存活社区枪支暴力的黑人男性的访谈进行归纳编码。结果表明，虽然某些大语言模型配置可以识别重要编码，但总体关联性仍然较低，且对数据处理高度敏感。此外，大语言模型的安全防护机制导致了大量叙事内容的缺失。这些发现既突显了大语言模型辅助的定性编码的潜力和限制，也强调了在涉及边缘化社区的研究中应用人工智能所面临的伦理挑战。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:30

# 大型语言模型能理解创伤影响吗？LLM编码枪支暴力幸存者访谈的成本与效益

来源：https://arxiv.org/html/2604.16132

Jessica H. Zhu、Shayla Stringfield、Vahe Zaprosyan、Michael Wagner、Michel Cukier、Joseph B. Richardson Jr.

马里兰大学帕克分校

通讯：[email protected] (https://arxiv.org/html/2604.16132v1/mailto:email@domain)

###### 摘要

枪支暴力是一个紧迫的公共卫生问题，但对幸存者生活经历的研究资金不足且难以推广。定性研究，包括深度访谈，是了解社区枪支暴力对个人和社会影响以及设计有效干预措施的有价值工具。然而，通过主题分析和归纳编码手动分析这些叙述耗时且劳动密集。大型语言模型（LLMs）的最新进展为自动化这一过程打开了大门，但人们仍担心这些模型是否能准确且合乎伦理地捕捉脆弱人群的经历。在本研究中，我们评估了使用开源LLM对21名经历社区枪支暴力的黑人男性的访谈进行归纳编码的方法。我们的结果表明，虽然某些LLM配置可以识别重要代码，但整体相关性仍然较低，且对数据处理高度敏感。此外，LLM护栏导致大量叙述丢失。这些发现强调了LLM辅助定性编码的潜力和局限性，以及在涉及边缘化社区的研究中应用AI的伦理挑战。

## 1 引言

枪支暴力仍然是美国儿童和黑人男性的主要死因之一（Johns Hopkins，2024）。它不成比例地影响有色人种，特别是黑人男性。通过定性研究（如深度访谈、焦点小组、参与者观察）理解枪支暴力幸存者的生活经历，对于开发和推进有效的社区暴力干预至关重要。然而，自1996年《迪基修正案》立法以来，枪支暴力研究人员被限制获得NIH和CDC联邦资金（Zhu等人，2024）。虽然在拜登政府期间有过缓解，CDC和NIH为枪支暴力研究提供了2500万美元资金，但特朗普政府已恢复严格限制资金（Brownlee，2026）。枪支暴力研究长期投资不足的影响已经阻碍了该领域整合新技术（如大型语言模型）的能力。

随着LLM的指数增长，定性编码平台已整合众多AI辅助服务，从聊天机器人、总结、代码建议、完全自动化到编码过程辅助（Atlas.ti）。这些服务通常只能以额外高级费用形式获得（MAXQDA）。OpenAI等公司宣传这些LLM驱动的AI自动化和AI辅助工具是下一个大创意的起点（OpenAI，2025）。然而，研究尚未证明LLM能够有效描述少数族裔社区的生活经历，更不用说那些枪支暴力幸存者的黑人年轻男性了。

在本研究中，我们探索使用LLM编码社区枪支暴力幸存者黑人男性访谈的价值。我们弥补了自动化定性编码在多样化数据集上研究缺乏的差距，以及对机器学习（ML）（特别是大型语言模型）如何支持枪支暴力研究工作的有限探索。通过构建机器编码流程并将结果与人工定性编码器作为基础事实进行比较，我们讨论了将LLM有效且合乎伦理地应用于涉及历史上边缘化社区和枪支暴力干预的研究中的挑战。

## 2 背景

定性方法对于捕捉经历暴力伤害的个人生活经历至关重要。它们提供了对导致暴力的社会和环境因素的背景洞察。主题分析等定性编码技术使这些见解在非结构化数据中的发现成为可能。然而，主题分析本质上是一个迭代和反思的过程（Ahmed等人，2025）。从重新阅读文本、识别有趣概念到将其组织为主题，定性编码是一个耗时且繁琐的过程（Williams和Moser，2019）。这延迟了研究成果的发表，进而也延迟了科学支持的减少枪支暴力方法的实施。

众多研究已探讨机器学习支持定性编码的优势。早在2008年，研究人员就使用了统计定义的自然语言处理模型，采用词共现、潜在语义分析和基于标记的主题建模方法（Dam和Kaufmann，2008；Sherin，2013；Baumer等人，2017；Crowston等人，2012；Rodriguez和Storer，2019；Lennon等人，2021）来探索定性数据，有时结合交互式人工协作（Gao等人，2024；Gebreegziabher等人，2023）。这些方法都展示了通过自然语言处理和机器学习协助加快定性编码过程的潜力，特别是对于短文本（Feuston和Brubaker，2021）。然而，这些初始方法仍然需要不同程度的数据标记、规则开发、参数调整、重新训练和额外的人工解释。缺乏透明度和大量代码建议的可能性也被发现对机器学习与定性编码的整合有不利影响（Rietz和Maedche，2021；Lennon等人，2021；Marathe和Toyama，2018）。

随着AI代理和生成式LLM的出现，研究人员和平台正在试验使用LLM以最少的人工交互完全自动化定性编码过程。LLM已被证明对演绎编码技术有帮助（Ziems等人，2024；Ranjit等人，2025）。LLM在主题分析和归纳编码中也取得了成功，如消费者产品调查（Dai等人，2023）、在线论坛（Nagaraj Rao等人，2025；Sharma和Wallace，2025）、社会科学研究的引文（Parfenova等人，2025）、诉讼文件（Zhong等人，2025）和医疗专业人员心理健康访谈（Singh等人，2024）。除Parfenova等人（2025）和Zhong等人（2025）外，上述所有研究都使用了超过100B参数的闭源模型。这些服务和模型规模对于资源匮乏的历史上边缘化社区在经济和计算上都不可及。此外，这些研究主要针对来自在线论坛、调查或标准英语讨论的短文本，不代表理解和解决枪支暴力对年轻黑人男性不成比例影响所需的长篇访谈。

这一服务不足的人群已被机器学习和LLM大幅偏见对待。尽管机器学习研究在其他公共卫生领域蓬勃发展，但针对枪支暴力干预的机器学习应用却很少（Zhu等人，2024）。虽然LLM对社会工作研究中的定性编码可能有益，但它们仍然受到对BIPOC群体产生幻觉和偏见的严重限制（Patton等人，2023）。LLM已被发现对非裔美国英语（AAE）做出隐性种族歧视决定。带人工反馈的强化学习通常会加剧隐性偏见，同时减少显性偏见（Hofmann等人，2024）。甚至护栏（名义上应该保护用户）也显示出对某些身份的偏见（Li等人，2024）。虽然对隐性偏见实际危害的辩论还在进行中，但研究发现隐性偏见表现为系统性种族主义（Galvan和Payne，2024）。为了防止系统性种族主义的传播，研究人员和开发人员必须在允许LLM成为主题分析的无处不在部分之前，在与社区的合作下对多样化数据集上的LLM进行彻底分析。

## 3 方法

为了解决关于LLM偏见和有效性的一个方面的问题，我们与社区暴力干预研究人员合作，以审视LLM在理解黑人枪支暴力幸存者生活经历方面的有效性。我们比较了语言模型在识别21名枪支暴力幸存者访谈中的代码与由定性研究人员识别的代码的有效性（见图1）。

图1：我们分析访谈和创建代码的流程

### 3.1 数据

我们分析了21名黑人/非裔美国男性的访谈，这些访谈先前在2013年1月至2015年12月期间以IRB批准（协议编号343085-1）的方式进行收集。这些受试者在因暴力伤害入院到DC大都市地区的一家二级创伤中心后被确定。他们在入院后被要求成为志愿者，并获得每次访谈50美元的补偿。有经验的非裔美国研究人类学家兼枪支暴力研究人员Richardson博士根据半结构化协议领导了一对一访谈。访谈持续约60分钟，在私人房间进行。访谈随后由两名研究助理手动转录并去识别。转录员是本科生，身份认同为白人男性和女性。转录本清理后，参与者名称在数据分析前更改为假名。主要调查员在密码保护的文件夹中保留了参与者名称和假名的主电子表格。

### 3.2 人工编码（HC）

使用定性软件手动编码访谈。该团队未使用软件中的AI编码功能。人工编码员遵循扎根理论，使用归纳主题分析编码技术（Ahmed等人，2025）识别初始代码。他们身份认同为黑人/非裔美国女性，包括一名本科生和两名研究工作人员。一名编码员有两年以上的经验。

人工编码员被指示在编码前审查研究协议，该协议重点关注高危性活动、既往创伤史、感知社区暴力和报复感受的具体经历。鼓励他们突出与初始重点相关的代码，以及不属于此初始目标的任何代码。一旦人工编码员识别了初始代码，采用成员核查策略来审查代码的准确性。初始人工标注代码（HC代码）随后被细化并合并为正式HC代码。正式代码由主要调查员审查准确性后最终确定。

### 3.3 机器编码流程（MC）

我们还使用开源模型构建了一个机器编码流程，以评估更易获得的低资源LLM（可在相对经济实惠的硬件上运行）在自动化定性编码中的有效性。我们首先清理并处理长篇访谈成机器可读的块，然后将其传递给LLM。我们在大学研究服务器上试验开源模型以保护敏感的访谈数据。实验在一个40GB A100节点上进行（用于8B参数LLM）、一个24GB L4 GPU上进行（用于1B参数LLM）和一台16GB RAM笔记本电脑上进行（所有Sentence Transformer语言模型）。代码可在 https://github.com/jhzsquared/AIvsHumanCoding 获取。

#### 3.3.1 数据处理

我们从转录本中删除了辅助信息（如时间戳、背景噪声的额外评论），并按演讲者（采访者或受试者）提取文本。由于使用较大模型时的计算资源限制，我们将数据分块成最大256个标记长度的部分。我们使用256个标记来近似给定话题讨论的段落长度。我们试验了"配对块"，其中我们按顺序分离访谈，使采访者的每一行首先与以下受试者的轮次配对，然后仅在过长时进一步分割。对于"问题块"，我们从原始访谈协议中提取了问题。然后我们编码了问题以及每个受试者响应轮次。来自两个Sentence Transformer模型（"all-mpnet-base-v2"和"multi-qa-MiniLM-L6-cos-v1"，Reimers和Gurevych，2020）的嵌入被连接以形成最终的集合嵌入。然后我们计算了嵌入问题和响应之间的余弦相似度。响应被分配给问题（或"其他"类别），其中它们具有最大相似度分数，只要它们达到20%相似度阈值。在测试不同阈值和模型后，通过对问题响应对的30个最高分数匹配的观察检查选择了此阈值和模型。响应进一步分割成最多256个标记长度的块。

对于最小的LLM（1B参数），我们也试验了以整个形式传递每次访谈（"完整文本"）。我们没有充足的计算容量可用于较大的8B参数LLM进行相同操作。

大语言模型能否理解创伤影响？大语言模型编码枪支暴力幸存者访谈的成本与收益

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

LaMSUM: 通过LLM引导的提取式摘要放大针对骚扰的声音

顶级科技公司在内部如何真正使用大语言模型，而不仅仅是基础的编码辅助？

基于大型语言模型引导的半监督方法用于社交媒体危机数据分类

谁的故事被讲述？生命叙事摘要中的立场性与偏见

提交意见反馈