DebiasRAG:一种通过检索增强生成实现大语言模型公平生成的无调优路径

arXiv cs.CL 论文

摘要

DebiasRAG 提出了一种无调优、查询特定的去偏框架,利用检索增强生成来减少大语言模型中的社会偏见,同时不降低其原有能力。

arXiv:2605.16113v1 公告类型:新 摘要:大语言模型(LLMs)因其卓越的生成能力而取得了前所未有的成功。然而,由于它们依赖于从训练语料库中封装的知识,可能会产生幻觉、刻板印象和带有社会偏见的内容。特别是,LLMs 容易产生涉及种族、性别和年龄的有偏见的回应,这些统称为社会偏见。先前的研究使用微调和提示工程来减轻 LLMs 中的此类偏见,但这些方法需要额外的训练资源或领域知识来设计框架。此外,它们可能降低 LLMs 的原有能力,并且常常忽视了实现更公平推理所需的动态去偏上下文。在本文中,我们提出了 DebiasRAG,一种基于检索增强生成(RAG)的新型无调优、动态查询特定去偏框架。DebiasRAG 在保持 LLMs 内在属性(如表示能力)的同时提高了公平性。DebiasRAG 包括三个阶段:(1)查询特定去偏候选生成;(2)上下文候选池构建;(3)梯度更新的去偏引导上下文片段重排序。首先,DebiasRAG 通过常规检索利用与查询相关的自我诊断偏置上下文,这些偏置上下文由 DebiasRAG 提供者离线准备。给定查询特定的偏置上下文后,DebiasRAG 反向生成去偏上下文,这些上下文作为附加的公平性约束提供给 LLM 输出。其次,常规的 RAG 检索过程从常规 RAG 文档数据库(如分块的维基百科数据集)中生成与查询相关的上下文。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:36

# DebiasRAG:通过检索增强生成实现大语言模型公平生成的无调优路径
来源:https://arxiv.org/abs/2605.16113
查看PDF(https://arxiv.org/pdf/2605.16113)HTML(实验性)(https://arxiv.org/html/2605.16113v1)

> 摘要:大语言模型(LLMs)因其卓越的生成能力取得了前所未有的成功。然而,由于它们依赖于从训练语料中封装的知识,可能会产生幻觉、刻板印象和社会偏见内容。特别是,LLMs 容易产生涉及种族、性别和年龄的偏见回应,这些统称为社会偏见。以往的研究使用微调和提示工程来减轻 LLMs 中的此类偏见,但这些方法需要额外的训练资源或领域知识来设计框架。此外,它们可能降低 LLMs 的原有能力,并且常常忽视为了更公平推理而需要动态去偏见上下文的需求。在本文中,我们提出 DebiasRAG,一种基于检索增强生成(RAG)的新型无调优动态查询特定去偏见框架。DebiasRAG 在保持 LLMs 固有属性(如表示能力)的同时提升了公平性。DebiasRAG 包含三个阶段:(1)查询特定去偏见候选项生成;(2)上下文候选池构建;(3)梯度更新的去偏见引导上下文片段重排序。首先,DebiasRAG 通过常规检索利用与查询相关的自诊断偏见上下文,其中偏见上下文由 DebiasRAG 提供者离线准备。给定查询特定的偏见上下文后,DebiasRAG 反向生成去偏见上下文,这些上下文作为额外的公平性约束提供给 LLM 输出。其次,常规 RAG 检索过程从常规 RAG 文档数据库(例如分块的维基百科数据集)中生成与查询相关的上下文。

## 提交历史

来自:楚锐 [查看邮件](https://arxiv.org/show-email/621732fd/2605.16113) **\[v1\]** 2026年5月15日 星期五 15:58:10 UTC(2,040 KB)

相似文章

上下文优化下的检索增强生成:从梯度下降视角

arXiv cs.CL

本文研究检索增强生成作为上下文优化过程,表明线性自注意力可以在统一的RAG目标上实现梯度下降。它提出了一种轻量级方法,适用于冻结的RAG大语言模型,通过预测上下文条件的更新,在多个问答基准上提升了性能。

从自适应列表排序角度重新审视自适应检索增强生成的必要性

arXiv cs.CL

本文提出了 AdaRankLLM,一个自适应检索框架,通过列表排序动态过滤检索到的段落,对自适应 RAG 的必要性提出质疑。研究表明自适应检索对于较弱模型充当噪声过滤器,对于更强模型充当成本效率优化器,在多个数据集和 LLM 上进行了广泛实验。

语境之代价:在多模态检索增强生成中缓解文本偏差

arXiv cs.CL

本文识别并形式化了多模态RAG中的“再污染”现象,即添加准确上下文会导致模型因注意力崩溃(视觉盲区和位置偏差)而放弃正确预测。作者提出BAIR,一种无参数的推理时框架,能恢复视觉显著性并惩罚文本干扰因素,从而在医学、公平性和地理空间基准上提高可靠性。