DebiasRAG：一种通过检索增强生成实现大语言模型公平生成的无调优路径

arXiv cs.CL 2026/05/18 04:00 论文

llm bias-mitigation retrieval-augmented-generation fairness debiasing fine-tuning-free

摘要

DebiasRAG 提出了一种无调优、查询特定的去偏框架，利用检索增强生成来减少大语言模型中的社会偏见，同时不降低其原有能力。

arXiv:2605.16113v1 公告类型：新摘要：大语言模型（LLMs）因其卓越的生成能力而取得了前所未有的成功。然而，由于它们依赖于从训练语料库中封装的知识，可能会产生幻觉、刻板印象和带有社会偏见的内容。特别是，LLMs 容易产生涉及种族、性别和年龄的有偏见的回应，这些统称为社会偏见。先前的研究使用微调和提示工程来减轻 LLMs 中的此类偏见，但这些方法需要额外的训练资源或领域知识来设计框架。此外，它们可能降低 LLMs 的原有能力，并且常常忽视了实现更公平推理所需的动态去偏上下文。在本文中，我们提出了 DebiasRAG，一种基于检索增强生成（RAG）的新型无调优、动态查询特定去偏框架。DebiasRAG 在保持 LLMs 内在属性（如表示能力）的同时提高了公平性。DebiasRAG 包括三个阶段：（1）查询特定去偏候选生成；（2）上下文候选池构建；（3）梯度更新的去偏引导上下文片段重排序。首先，DebiasRAG 通过常规检索利用与查询相关的自我诊断偏置上下文，这些偏置上下文由 DebiasRAG 提供者离线准备。给定查询特定的偏置上下文后，DebiasRAG 反向生成去偏上下文，这些上下文作为附加的公平性约束提供给 LLM 输出。其次，常规的 RAG 检索过程从常规 RAG 文档数据库（如分块的维基百科数据集）中生成与查询相关的上下文。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:36

# DebiasRAG：通过检索增强生成实现大语言模型公平生成的无调优路径
来源：https://arxiv.org/abs/2605.16113
查看PDF（https://arxiv.org/pdf/2605.16113）HTML（实验性）（https://arxiv.org/html/2605.16113v1）

> 摘要：大语言模型（LLMs）因其卓越的生成能力取得了前所未有的成功。然而，由于它们依赖于从训练语料中封装的知识，可能会产生幻觉、刻板印象和社会偏见内容。特别是，LLMs 容易产生涉及种族、性别和年龄的偏见回应，这些统称为社会偏见。以往的研究使用微调和提示工程来减轻 LLMs 中的此类偏见，但这些方法需要额外的训练资源或领域知识来设计框架。此外，它们可能降低 LLMs 的原有能力，并且常常忽视为了更公平推理而需要动态去偏见上下文的需求。在本文中，我们提出 DebiasRAG，一种基于检索增强生成（RAG）的新型无调优动态查询特定去偏见框架。DebiasRAG 在保持 LLMs 固有属性（如表示能力）的同时提升了公平性。DebiasRAG 包含三个阶段：（1）查询特定去偏见候选项生成；（2）上下文候选池构建；（3）梯度更新的去偏见引导上下文片段重排序。首先，DebiasRAG 通过常规检索利用与查询相关的自诊断偏见上下文，其中偏见上下文由 DebiasRAG 提供者离线准备。给定查询特定的偏见上下文后，DebiasRAG 反向生成去偏见上下文，这些上下文作为额外的公平性约束提供给 LLM 输出。其次，常规 RAG 检索过程从常规 RAG 文档数据库（例如分块的维基百科数据集）中生成与查询相关的上下文。

## 提交历史

来自：楚锐 [查看邮件](https://arxiv.org/show-email/621732fd/2605.16113) **\[v1\]** 2026年5月15日 星期五 15:58:10 UTC（2,040 KB）

DebiasRAG：一种通过检索增强生成实现大语言模型公平生成的无调优路径

相似文章

上下文优化下的检索增强生成：从梯度下降视角

从自适应列表排序角度重新审视自适应检索增强生成的必要性

为稳健的 RAG 评估生成无知识泄露的基准测试

LightRAG：简单高效的检索增强生成框架

语境之代价：在多模态检索增强生成中缓解文本偏差

提交意见反馈