基于大模型的稠密检索器鲁棒性研究：泛化性与稳定性系统分析

Hugging Face Daily Papers 2026/04/17 13:02 论文

摘要

系统研究表明，基于大模型的稠密检索器在拼写错误和投毒攻击上优于 BERT 基线，但仍易受语义扰动影响，其嵌入几何形态可预测鲁棒性。

解码器大语言模型（LLM）正逐步取代 BERT 系列架构，成为稠密检索的新骨干，带来显著性能提升并广泛应用。然而，这些基于 LLM 的检索器的鲁棒性尚未被系统探索。本文首次从泛化性与稳定性两个互补视角，对当前最先进的开源 LLM 稠密检索器进行系统鲁棒性研究。在泛化性方面，我们在涵盖 30 个数据集的四个基准上评估检索效果，采用线性混合效应模型估计边际平均性能，将模型固有能力与数据集异质性解耦。分析发现，指令微调模型整体表现优异，但针对复杂推理优化的模型常付出“专业化税”，在更广泛场景中泛化受限。在稳定性方面，我们测试模型对无意查询变化（如释义、拼写错误）与恶意对抗攻击（如语料投毒）的抵抗力。结果显示，相比仅编码器基线，LLM 检索器对拼写错误和语料投毒更鲁棒，但仍易受同义词替换等语义扰动影响。进一步分析表明，嵌入空间几何（如角度均匀性）可预测词汇稳定性，且扩大模型规模通常提升鲁棒性。这些发现为未来鲁棒性感知的检索器设计与原则性评测提供指导。代码已开源：https://github.com/liyongkang123/Robust_LLM_Retriever_Eval

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 15:38

论文页面 - 论基于 LLM 的稠密检索器的鲁棒性：对泛化能力与稳定性的系统分析

来源：https://huggingface.co/papers/2604.16576

摘要

最先进的开源基于 LLM 的稠密检索器在泛化能力与稳定性上表现不一：指令微调模型性能更佳，但面临“专业化”权衡；嵌入几何结构为提高鲁棒性提供了可解释信号。

解码器-only 大语言模型（https://huggingface.co/papers?q=Decoder-only%20large%20language%20models）（LLM）正逐步取代 BERT 式架构，成为稠密检索（https://huggingface.co/papers?q=dense%20retrieval）的主干，带来显著性能提升并被广泛采用。然而，这些 LLM 检索器的鲁棒性仍缺乏系统研究。本文首次从“泛化能力”与“稳定性”两个互补视角，对 SOTA 开源 LLM 稠密检索器进行鲁棒性系统评估。

泛化能力：我们在覆盖 30 个数据集的 4 个基准上评估检索效果，采用线性混合效应模型（https://huggingface.co/papers?q=linear%20mixed-effects%20models）估计边际平均性能，剥离数据集异质性对模型内在能力的影响。分析发现，指令微调模型（https://huggingface.co/papers?q=instruction-tuned%20models）整体领先，但针对复杂推理优化的模型往往付出“专业化税”，在更广泛场景下泛化受限。
稳定性：我们测试模型对无意查询变化（如复述、拼写错误）以及恶意对抗攻击（如语料投毒）的韧性。结果显示，相比仅编码器基线，LLM 检索器在抗拼写错误和语料投毒方面更鲁棒，但仍易受到同义词替换等语义扰动（https://huggingface.co/papers?q=semantic%20perturbations）的影响。进一步分析表明，嵌入几何结构（https://huggingface.co/papers?q=embedding%20geometry）（如角度均匀性 https://huggingface.co/papers?q=angular%20uniformity）可预测词汇级稳定性，且扩大模型规模普遍提升鲁棒性。

上述发现为未来“鲁棒性优先”的检索器设计与原则化评测提供指导。代码已开源：https://github.com/liyongkang123/Robust_LLM_Retriever_Eval

查看 arXiv 页面（https://arxiv.org/abs/2604.16576）
查看 PDF（https://arxiv.org/pdf/2604.16576）
GitHub0（https://github.com/liyongkang123/Robust_LLM_Retriever_Eval）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.16576）

在智能体中获取本文：

hf papers read 2604.16576

未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 0

暂无模型关联本文

在模型 README.md 中引用 arxiv.org/abs/2604.16576 即可在此页面显示链接。

引用本文的数据集 0

暂无数据集关联本文

在数据集 README.md 中引用 arxiv.org/abs/2604.16576 即可在此页面显示链接。

引用本文的 Spaces 0

暂无 Space 关联本文

在 Space README.md 中引用 arxiv.org/abs/2604.16576 即可在此页面显示链接。

收录本文的合集 0

暂无合集包含本文

新建合集并将本文加入，即可在此页面显示链接。

相似文章

大型语言模型能否对检索到的信息保持审慎态度？

arXiv cs.CL

本文研究了大型语言模型如何适应检索信息的确定程度，指出了其在处理不确定性方面的系统性局限。论文提出了一种交互策略，在不修改模型权重的前提下，将顺从错误降低了 25%。

大语言模型几何表示鲁棒性评测

arXiv cs.CL

# 大语言模型几何表示鲁棒性评测来源：[https://arxiv.org/html/2604.16421](https://arxiv.org/html/2604.16421) Vedant Jawandhia 计算机科学与信息系统系，BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Yash Sinha 计算机科学与信息系统系，BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Ankan Pal 数学系，BITS Pilani

基于大模型的稠密检索器鲁棒性研究：泛化性与稳定性系统分析

论文页面 - 论基于 LLM 的稠密检索器的鲁棒性：对泛化能力与稳定性的系统分析

摘要

引用本文的模型 0

引用本文的数据集 0

引用本文的 Spaces 0

收录本文的合集 0

相似文章

大型语言模型能否对检索到的信息保持审慎态度？

大语言模型几何表示鲁棒性评测

真实场景下的对比归因：针对现实基准中大模型失效的可解释性分析

轻量级风格一致性分析：用于多媒体内容审核的大语言模型生成文本鲁棒性检测

超越表面统计：通过内部表示实现LLM鲁棒共形预测

提交意见反馈