用于叙述生成中分布外去偏差的预调节测试时适应

arXiv cs.CL 2026/04/20 04:00 论文

摘要

本文提出 CAP-TTA，一个测试时适应框架，利用由偏差风险分数触发的预调节 LoRA 更新，在叙述生成过程中缓解大语言模型的毒性和偏差问题，实现更快的优化和相比标准基线更好的流畅性。

arXiv:2603.13683v3 公告类型：替换摘要：虽然去偏差的大语言模型（LLMs）在处理已知或低偏差提示时表现出色，但在面对陌生且高偏差的提示时往往失效。我们通过分布外（OOD）检测展示这些高偏差提示会导致分布偏移，降低静态模型的性能。为了实现实时纠正，我们提出 CAP-TTA，一个测试时适应框架。CAP-TTA 仅在偏差风险分数超过设定阈值时触发上下文感知的 LoRA 更新。通过利用离线预计算的对角线预调节器，确保快速且稳定的优化。在多个基准测试和人工评估中，CAP-TTA 能有效降低毒性/偏差分数，且延迟显著低于标准优化方法（如 AdamW 或 SGD）。此外，它防止了灾难性遗忘，并在不影响去偏差性能的前提下大幅改善了叙述的流畅性，优于最先进的基线方法。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:32

# 叙述生成中的预调节测试时间适配用于分布外去偏 来源：https://arxiv.org/html/2603.13683

Hanwen Shen1,∗Ting Ying2,∗Jiajie Lu1Shanshan Wang3,†

1Stevens Institute of Technology数学教育人工智能实验室
2独立研究员
3澳门大学计算机与信息科学系NLP2CT实验室

[email protected],[email protected]

###### 摘要

尽管去偏的大语言模型（LLM）在处理已知或低偏见提示时表现出色，但在不熟悉的高偏见提示上常常失败。我们通过分布外（OOD）检测证明，这些高偏见提示会导致分布偏移，降低静态模型性能。为实现实时纠正，我们提出了CAP-TTA，一个测试时间适配框架。CAP-TTA仅当偏见风险评分超过设定阈值时才触发上下文感知的LoRA更新。通过利用离线预计算的对角线预调节器，它确保了快速稳定的优化。在多个基准和人工评估中，CAP-TTA有效地降低了毒性/偏见评分，延迟明显低于标准优化方法（如AdamW或SGD）。此外，它防止了灾难性遗忘，相比最先进的基线方案，在不损害去偏性能的前提下大幅改进了叙述流畅性。

## 1 引言

大语言模型（LLM）在自然语言理解和生成方面取得了实质性进展。随着生成内容规模和传播范围的扩大，模型输出中的社会偏见和毒性风险也随之增加。偏见通常被理解为产生伤害的系统性偏斜，包括不公平的资源分配和表现性伤害，如刻板印象或错误代表（Suresh and Guttag, 2021）。同时，偏见本质上是一个规范性概念：它需要明确谁会受到伤害、以何种方式、为什么需要缓解，以及评估指标是否与预期的缓解目标一致（Blodgett等，2020）。重要的是，什么算作有偏见或有害既不是静态的，也不是通用的，而是在历史时期、文化背景和地区间各不相同（Mitchell等，2021）。因此，偏见不能由单一固定维度或预定义属性完全刻画。这为大语言模型带来了挑战，因为静态模型和基准可能忽略新兴偏见，特别是在分布外设置（如创意叙述生成）中。

为了解决这些问题，以往工作提出了一系列去偏方法，包括数据级和表示级干预（Bolukbasi等，2016；Zhao等，2018），以及生成模型中偏见和毒性的分析与控制方法（Sheng等，2019；Gehman等，2020）。基于提示的技术进一步启用了推理时（或测试时）自诊断和自去偏（Schick等，2021）。然而，大多数现有方法以离线静态方式学习固定的偏见模式。在实际部署中，偏见表达可能随着提示分布和背景的变化而出现和漂移；因此，静态约束可能在分布外（OOD）条件下降级，有时仅处理表面触发模式。此外，如果将LLM制造成"完全无偏"，它如何能够真实地生成有偏见的角色或在叙述中描绘偏见呢？这类似于在构建无偏见乌托邦的同时丧失自我纠正能力（Becker, 1967；Harding, 1992）。

因此，我们寻求一个真正去偏的模型，它不仅被指示不要歧视，而且能够动态适应——理想情况下具有持续学习能力（Wu等，2024）。受到这一差距的启发，我们将去偏视为分布偏移下的持续适应问题，并提出**CAP-TTA**（预调节上下文感知测试时间适配），一种阈值触发的测试时间适配（TTA）去偏方法。CAP-TTA在生成过程中在线监测偏见/毒性信号，仅当风险评分超过阈值时才触发轻量级更新，从而控制测试时间开销并减少不必要的参数漂移。触发后，它仅更新小型适配器模块（如LoRA（Hu等，2021））；并执行预调节少步骤更新以提高稳定性和效率（Sun等，2020）。该设计还借鉴了持续学习原理以缓解遗忘（Kirkpatrick等，2017），旨在改进安全性同时保持生成质量。

本工作做出三项主要贡献：

- •使用标准OOD检测方法，我们发现高偏见集合在基础模型中比低偏见集合的OOD程度一致更高，静态LLM在这种OOD偏移下性能降级。
- •我们介绍了CAP-TTA，一个用于分布偏移下去偏的测试时间适配框架。CAP-TTA在安全优先级超参数下匹配自纠正方法的最先进偏见评分，同时将流畅性提高12%。
- •我们比较了不同触发阈值和提示长度。在流畅性设置中，CAP-TTA在双重差分分析下相比基础模型产生边际显著（p=0.07）的偏见减少，流畅性更高，表明在缓解降级和抵抗灾难性遗忘方面有扎实的潜力。我们通过人工评估验证了减少的偏见判断。

## 2 相关工作

### 2.1 LLM中的社会偏见与基准

大量文献记录了语言模型中的社会伤害，并提供了分类法、评估协议和缓解策略（Gallegos等，2024）。基础工作表明刻板关联嵌入在表示空间中，可以被系统性研究（Bolukbasi等，2016）。基准将这些伤害操作化：RealToxicityPrompts（RTP）测量提示变化下的毒性退化（Gehman等，2020），而StereoSet和CrowS-Pairs针对刻板和隐性偏见（Nadeem等，2021；Nangia等，2020）。更广泛的评估如HELM将偏见和毒性视为一流维度（Liang等，2022）。然而，偏见测量对提示格式和多任务提示敏感（Akyürek等，2022），伤害可能在长篇幅叙述设置中持续或重新出现，其中上下文增加了自由度（Jeung等，2024）。我们通过关注分布偏移下的长篇幅叙述生成来推进这一方向，其中偏见可能以静态基准单独不能覆盖的形式出现。

### 2.2 生成的去偏与安全对齐

去偏涵盖数据级、模型级和解码级干预。以数据为中心的方法通过语料库约束或重新加权来缓解偏见放大（Zhao等，2017）；以模型为中心的方法使用对抗训练或表示编辑减少受保护属性信息（Zhang等，2018；Ravfogel等，2020）。推理时控制可以直接重塑生成，包括基于梯度的指导（Dathathri等，2020）、判别器引导解码（Yang and Klein, 2021）、专家/反专家组合（Liu等，2021）和基于提示的自去偏（Schick等，2021）。以往工作表明这些方法高度依赖设置，在提示偏移下可能不能迁移（Meade等，2022）。大规模对齐管道——如RLHF风格的指令微调（Ouyang等，2022）和偏好优化（Rafailov等，2023）——以及用户可控变体如SteerLM（Dong等，2023）被广泛用于减少有害输出，但最近研究表明在长上下文或后续更新下存在脆弱性（Anil等，2024；Hubinger等，2024；Qi等，2024）。Wang等（2025）表明现有检测器无法可靠识别LLM生成的诗歌，突显风格和文化背景可能破坏静态机制。相反，我们研究在生成期间进行选择性实时纠正以改进未知提示下的鲁棒性，同时保持叙述质量，超越简单记忆。

### 2.3 持续学习与TTA

分布偏移通常形式化为训练和部署分布之间的不匹配（Quiñonero-Candela等，2009）。持续学习为在非平稳数据流下适应同时维持先前知识提供了框架（Parisi等，2019），最近的调查讨论了LLM的额外挑战，如稳定性、数据选择和保持一般能力（Wang等，2024a；Wu等，2024；Xiao等，2025）。测试时间适配（TTA）在推理时更新模型以改进偏移下的鲁棒性。测试时间训练利用自监督（Sun等，2020；Team, 2025；Snell等，2024），而Tent通过熵最小化进行适配（Wang等，2021）；后续工作改进了动态设置中的目标和稳定性（Gandelsman等，2022；Zhang等，2022；Niu等，2023）以及研究流式偏移下的持续测试时间适配（Wang等，2022）。测试时间适配包括基于训练（即微调）和无训练方法。参数高效微调（PEFT）方法，特别是低秩适配（LoRA）及其最近的高效变体，通过仅更新权重的一部分大幅降低了优化LLM的计算开销（Hu等，2021；Dettmers等，2023；Zhang等，2023；Liu等，2024；Xiao等，2026）。此外，无训练激活指导可以有效干预LLM在推理期间的内部表示，为真实报告启用深度加权增强（Góral等，2025；García-Ferrero等，2025）。持续和测试时间学习中的一个反复出现的问题是灾难性遗忘，通常通过重要性加权正则化如EWC来解决（Kirkpatrick等，2017）。曲率感知优化（如K-FAC）为稳定更新提供了高效近似（Martens and Grosse, 2015）。CAP-TTA使用轻量级适配器和阈值触发器实例化这些原理以减少不必要的更新。

| 模型 | 方法类型 | 安全性（平均偏见↓） | 效率 | ID（安全） | OOD（有毒） | 速度（token/s） | 动态? |
|------|---------|---|---|---|---|---|---|
| | | | | | | | |
| Qwen3-4B | 基础预训练 | 0.289 | 0.452 | 19.4 | 否 |
| DeepSeek-R1-8B | 基础预训练 | 0.395 | 0.454 | 26.0 | 否 |
| DeepSeek-R1-8B-去偏 | 离线去毒 | 0.389 | 0.471 | 21.9 | 否 |
| Mistral-7B-Instruct | 离线去毒 | 0.449 | 0.525 | 25.3 | 否 |
| Qwen3-4B-Sherlock | 自纠正 | 0.395 | 0.437 | 18.8 | 是（CoT） |

**表1：在ID（安全）/OOD（有毒）提示上的定量比较。** 我们报告BB偏见评分在ID/OOD集合上。速度是解码吞吐量（token/s）。动态?表示方法是否执行思维链。

## 3 方法

### 3.1 问题定义

##### 叙述生成。

一个已部署的LLM，其基础参数θ固定，通常被视为条件分布$p_\theta(\bm{y} \mid x)$，其中$x$是用户提示（可能是长叙述指令），$\bm{y} = (y_1, \ldots, y_T)$是生成的续写。我们分K段生成叙述。令$\bm{y}^{(0)} \sim p_\theta(\cdot \mid x)$。对于$k=1,\ldots,K$，定义

$$h_k \triangleq \bigl(x, \bm{y}^{(0)}, \ldots, \bm{y}^{(k-1)}\bigr), \quad \bm{y}^{(k)} \sim p_\theta\left(\cdot \mid h_k\right).$$

$h_k$代表在生成第$k$段之前的历史（提示加上之前生成的段）。

##### 情节式测试时间适配。

我们附加一个参数高效的适配器$\phi$（如LoRA）并保持$\theta$固定：$p_{\theta, \phi}(\bm{y} \mid x)$。适配以情节方式进行。在每个提示/会话开始时，我们重新初始化适配器参数。

相似文章

BIASEDTALES-ML：用于分析大语言模型生成故事中叙事属性分布的多语言数据集

arXiv cs.CL

# BIASEDTALES-ML：用于分析大语言模型生成故事中叙事属性分布的多语言数据集来源：[https://arxiv.org/html/2604.17008](https://arxiv.org/html/2604.17008) Yuxuan Ouyang1,Yingfeng Luo1,Tong Xiao1,2,Jingbo Zhu1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳 NiuTrans Research [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn ###### 摘要大型语言模型（LLM）正日益被广泛用

用于叙述生成中分布外去偏差的预调节测试时适应

相似文章

BIASEDTALES-ML：用于分析大语言模型生成故事中叙事属性分布的多语言数据集

击中移动目标：持续分布漂移下AI文本检测的测试时自适应

DebiasRAG：一种通过检索增强生成实现大语言模型公平生成的无调优路径

TALAN：面向大语言模型定向后训练的任务对齐潜在自适应网络

CASCADE：大语言模型在部署期间的基于案例的持续自适应

提交意见反馈