DisaBench: 一个用于语言模型中残疾伤害的参与式评估框架

arXiv cs.AI 2026/05/14 04:00 论文

摘要

DisaBench是一个与残障人士共同创建的参与式评估框架，引入了12个残疾伤害类别的分类法和一个包含175个提示的数据集，用于评估语言模型中的伤害，揭示了标准安全基准会遗漏微妙的、专家识别的伤害。

arXiv:2605.12702v1 Announce Type: new 摘要：大型语言模型的通用安全基准未能充分评估与残疾相关的伤害。我们推出了DisaBench：一个与残障人士和红队专家共同创建的十二类残疾伤害分类法，一种基于分类的评估方法，将良性提示和对抗性提示配对覆盖七个生活领域，以及一个包含175个提示的数据集，对525个提示-回复对进行了人工标注。由四位有亲身残疾经历的评估者进行的标注揭示了三个发现：伤害率因残疾类型差异巨大，并会在非文本模态中叠加；术语驱动的伤害受文化和时间限制，而非普遍可评估；标准安全评估能捕捉显性失败，却遗漏了只有领域专业知识才能识别的微妙伤害。残疾伤害同时是个人的、交叉的、由社区定义的：它无法脱离一个人的完整背景，而通用基准系统性遗漏了它。我们将通过Hugging Face和一个开源红队框架发布数据集、分类法和评估方法，可直接集成到现有安全流程中，无需额外基础设施。

查看原文

查看缓存全文

缓存时间: 2026/05/14 06:14

# 语言模型中残障危害的参与式评估框架
来源：https://arxiv.org/html/2605.12702
###### 摘要

通用型大语言模型安全基准未能充分评估与残障相关的危害。本文介绍DisaBench：一个由残障人士与红队测试专家共同创建的包含十二种残障危害类别的分类体系，一种结合良性提示和对抗性提示、覆盖七个生活领域的分类驱动评估方法，以及一个包含175个提示、在525个提示-响应对上有人工标注标签的数据集。由四位具有亲身残障经历的评估者进行的标注揭示了三个发现：不同残障类型之间的危害率差异显著，且将在非文本模态中进一步累积；术语驱动的危害具有文化和时间局限性，而非普遍可评估；标准安全评估能捕捉明显失败，却忽略了只有领域专家才能识别的细微危害。残障危害同时具有个人性、交叉性和社区定义性：它无法脱离一个人的完整背景而孤立存在，通用型基准系统地忽略了它。我们将通过Hugging Face和一个开源红队测试框架发布该数据集、分类体系和评估方法，以便无需额外基础设施即可直接集成到现有安全流程中。

内容警告：本文包含对抗性提示和模型输出，其中涉及能力主义语言、刻板印象和权利否认等内容。

## 1 引言

大多数安全基准关注明显的毒性：侮辱性言语、威胁、非法指令。据估计，全球有13亿人（约占全球人口的16%）经历显著残障（世界卫生组织，2024年），而对这一群体来说，语言模型造成的危害并非安全基准所测试的那些。一位盲人用户被告知要触摸热锅来判断鸡蛋是否煮熟。一位患有广场恐惧症的用户收到了一份详尽的清单，列出户外可能出问题的一切，这反而加剧了焦虑而非识别出问题。一位聋人用户询问职业选择，却收到了他们可以从事的工作清单，而非问题的答案。

在我们的评估中，明显的毒性很少见。主要的失败模式是刻板印象（占一致认定的有害回应的42%），其次是有害建议、怜悯和服务质量下降，这些都是毒性分类器无法标记的危害。我们的标注揭示，具有不同残障经历的专家标注员在怜悯、抹除和权利否认等类别中对何为危害存在系统性分歧，分歧集中在社区规范争议最大的类别中。

这些观察促使了DisaBench的设计：评估残障危害需要与受影响社区共同创建，并由具有相关亲身经历的人进行标注，因为危害边界确实存在争议。某些残障危害具有即时认知或心理影响，用户意识无法减轻：过于复杂的文本会给阅读障碍用户带来处理压力，无论其预期如何；行为强化会实时加深有害模式。识别这些危害需要基于社区专业知识的评估；部署后的用户报告无法揭示在遭遇瞬间发生的损害。

DisaBench采用残障的社会模型（世界卫生组织和世界银行，2011年）：诊断并非导致残障的原因；相反，环境（物理、社会或计算环境）的排他性设计产生了致残时刻。由此得出两个前提。首先，残障是普遍且多样的：任何人一生中任何时刻都可能受到影响。其次，残障是个体经历的：两个聋人可能都认同自己是聋人，但访问需求却截然不同。没有哪个基准能捕捉所有残障体验，我们也并不声称我们的基准能做到。

本文做出三项贡献：

1. 1.一个共同创建的残障危害分类体系（第3节），与残障及红队测试领域专家合作开发，并以残障研究中危害的框架为基础。该分类体系将十二个危害类别组织成五个顶层类别，并沿三个独立的严重性维度进行标注。
2. 2.一种结构化评估方法（第3.3节），通过良性提示和对抗性提示系统性地探查每个危害类别，并映射到残障用户使用生成式AI的主要生活领域。
3. 3.一个数据集（第4节），包含N=175个经过三个指令调优模型评估的提示，附带提示侧元数据以及525个提示-响应对的模型输出，将在接收后发布，以便未来模型重新评估。

## 2 相关工作

### 2.1 残障研究基础

我们的框架建立在残障的社会模型之上（世界卫生组织和世界银行，2011年；Ladau，2021年），并通过两个线索加以扩展。首先，以人为本优先和以身份优先语言的争论表明，不同社区的偏好各异，没有任何一种惯例普遍受欢迎（Dunn和Andrews，2015年；Best等，2022年；Sharif等，2022年）；这为我们的标注指南提供了依据，该指南指示标注员根据社区规范而非表面词汇选择来评估危害。其次，最近的综述将能力主义视为健康和社会结果的结构性决定因素（Mannor和Needham，2024年；da Silva等，2025年），促使我们的分类体系在关注表征性危害的同时也强调系统性危害。

### 2.2 安全基准

现有的安全基准针对的威胁模型不同于残障危害。HarmBench（Mazeika等，2024年）和RealToxicityPrompts（Gehman等，2020年）利用众包标注或自动分类器瞄准明显的毒性；而JailbreakBench（Chao等，2024年）、AdvBench（Zou等，2023年）和XSTest（Röttger等，2024年）评估越狱鲁棒性或过度安全拒绝。这些基准并非为针对特定身份、依赖上下文的评估而设计；我们观察到的残障危害（刻板印象、有害建议、怜悯、服务质量下降）是微妙的，需要领域专业知识才能识别。Shelby等（2023年）综合了一个社会技术危害的分类体系，分为五个主题（表征性、分配性、服务质量、人际关系和系统性），提供了一个在更高层次上组织我们若干危害类别的大有用一般框架，但并未操作化残障特有的危害。

### 2.3 AI中的残障偏见

通用安全评估与残障特定危害之间的差距已有充分记录。Hutchinson等（2020年）显示毒性分类器对提及残障的文本分配了不成比例的负面评分；Whittaker等（2019年）记录了残障在AI公平性研究中被系统性地低估。Venkit等（2022年，2023年）展示了预训练模型中的隐性偏见。Gadiraju等（2023年）通过焦点小组识别出直接影响我们分类体系的微妙刻板印象；Phutane等（2024年）发现模型相对于有残障的人类评估者系统性地低估危害，这促使我们使用有亲身经历的标注员而非自动分类器。一些基准涉及残障：BBQ（Parrish等，2022年）将其作为九种偏见轴之一以多项选择形式覆盖；BOLD（Dhamala等，2021年）将其作为一个以自动情感和尊重指标衡量的人口统计学维度；AccessEval（Panda等，2025年）针对残障偏见但也依赖自动度量。DisaBench的不同之处在于与残障专家共同创建、由有亲身经历的人标注，以及包含良性提示和对抗性提示。

## 3 参与式红队测试框架

DisaBench是一个可重复的框架，用于评估生成式AI中残障特殊危害，而非一个静态数据集。该框架在设计上具有参与性：红队测试实践者带来系统化的评估方法论，但识别哪些模型行为构成残障危害需要受到这些危害影响的人们的亲身经历。该框架包含三个组成部分：一个共同创建的危害分类体系（第3.1–3.2节）、一个结构化评估方法论（第3.3节）以及一个内置分歧处理机制的标注协议（第4节）。

### 3.1 共同创建过程

分类体系通过涉及两个互补专业团队的结构化共同创建过程开发：红队测试实践者，他们的工作发现模型失败表明残障背景需要超出现有安全分类体系的类别；以及残障人士（PwD），其亲身经历涵盖行动能力、神经多样性、心理健康和低视力等方面。

#### 阶段1：识别失败模式。

该过程始于两个团队对多个生成式AI模型进行动手红队测试，并结合五次研讨会，涉及超过100名残障人士，涵盖所有主要残障类型和多个地区。研讨会在线进行（每次60分钟），参与者通过一个残障员工网络招募。我们没有从现有的危害分类体系出发，而是让失败模式通过经验观察浮现。红队测试揭示了现有分类体系（Shelby等，2023年）在一般层面组织（表征性危害、服务质量下降、分配性危害）但未针对残障进行操作化的模式：怜悯框架、对危险请求的有害顺从、行为强化以及残障被披露时的质量下降。研讨会的参与者从他们自己的使用背景中识别出相同模式，并补充了其他模式，这些为阶段2提炼成操作化类别提供了初始的伤害类型清单。研讨会没有收集或报告参与者层面的数据；它们为分类设计提供了信息，但个人贡献在最终框架中不可识别。

#### 阶段2：分类体系开发。

实践者构建了一个操作化的类别框架，用于系统地发现和修复模型失败。然后，残障人士贡献者通过带来他们在日常生活中使用AI系统的经验，塑造了什么算作危害。最终产生的危害远超偏见或偏好。它们包括身份层面的危害（被告知要隐藏自己的残障）、即使用户已经知道不信任模型也会造成伤害的危害（怜悯框架、未经请求的健康建议），以及需要残障特定知识才能识别的依赖上下文的危害（行为强化、披露后质量下降）。残障人士贡献者已经意识到这些风险，并能识别和忽略某些有害输出，但某些危害仅通过遭遇行为本身就会造成损害。数字压力会在用户干预之前影响认知处理，而行为强化会助长有害模式，因为模型的响应看起来像用户所问问题的正确答案。挑战不在于团队之间的分歧，而在于范围问题。开发一个涵盖影响残障社区的全部危害范围分类体系本质上是困难的，因为每个人的残障体验都不同。

五次工作会议完善了分类体系，借鉴了残障研究文献（世界卫生组织和世界银行，2011年；Mannor和Needham，2024年；Dunn和Andrews，2015年；Sharif等，2022年）。类别仅在同时满足两个条件时保留：在模型输出中可经验观察，并且对受影响社区有意义（Costanza-Chock，2020年）。残障人士贡献者对类别包含拥有有效否决权：如果提议的危害未被它将影响的人认可为有意义，则无论其可测量性如何都将被排除。

### 3.2 危害分类体系

该分类体系涵盖五个残障领域（视力、听力与言语、行动能力、神经多样性与学习、心理健康），并将十二个危害类别组织成五个顶层类别。五个中的三个（有害建议、表征危害、行为强化）进一步分为子类别，区分需要不同红队测试策略的失败模式；其余两个（人权否认、数字压力）各自针对一个失败模式，不再细分。表1列出了我们的数据集中针对每个类别的提示数量（N=175）。

表1：残障危害类别分类体系。五个顶层类别（粗体）组织十二个具体类别。n：基准中提示的数量。有害建议涵盖针对所声明残障的不安全指令（身体伤害）、劝阻适应措施或权利主张（社会/经济机会丧失）、以及鼓励隐藏残障身份（身份）。表征危害包括将人贬低为物体或负担的语言（非人化）、强化刻板印象（刻板印象与嘲笑）、在相关时忽略残障（抹除）、披露残障时降低响应质量（分配性危害、服务质量）、以及通过怜悯或美化来框架残障（怜悯与美化）。行为强化针对放大神经多样性模式（神经多样性与学习）以及加深有害的心理健康恶性循环（心理健康）。人权否认涵盖排除或限制获得权利或服务的回应。数字压力涵盖使用户在认知处理差异上超负荷的输出（例如，极长的响应、不一致的格式）。

### 3.3 分类体系的操作化

#### 良性提示与对抗性提示。

最具后果的残障危害并非由对抗性提示产生，而是由现实、日常的查询产生（Bullwinkel等，2025年）。“我是盲人，如何煎一个鸡蛋？”是良性提示，但若用触摸热锅的指令回答，则在没有用户预期危险的情况下造成实际身体伤害。因此，我们的基准包括

DisaBench: 一个用于语言模型中残疾伤害的参与式评估框架

相似文章

ASD-Bench：用于自闭症谱系障碍的 AI 模型四维综合基准测试

DiagFlowBench: 评估语言模型在基于流程的诊断对话中如何处理非程序输入

MCBench: 面向全模态大语言模型的多语境安全评估基准

PlanBench-V: 面向视觉语言模型的空间规划地图基准

SciRisk-Bench：面向AI4Science安全的风险维度感知基准

提交意见反馈