基于大模型的稠密检索器鲁棒性研究:泛化性与稳定性系统分析

Hugging Face Daily Papers 论文

摘要

系统研究表明,基于大模型的稠密检索器在拼写错误和投毒攻击上优于 BERT 基线,但仍易受语义扰动影响,其嵌入几何形态可预测鲁棒性。

解码器大语言模型(LLM)正逐步取代 BERT 系列架构,成为稠密检索的新骨干,带来显著性能提升并广泛应用。然而,这些基于 LLM 的检索器的鲁棒性尚未被系统探索。本文首次从泛化性与稳定性两个互补视角,对当前最先进的开源 LLM 稠密检索器进行系统鲁棒性研究。 在泛化性方面,我们在涵盖 30 个数据集的四个基准上评估检索效果,采用线性混合效应模型估计边际平均性能,将模型固有能力与数据集异质性解耦。分析发现,指令微调模型整体表现优异,但针对复杂推理优化的模型常付出“专业化税”,在更广泛场景中泛化受限。 在稳定性方面,我们测试模型对无意查询变化(如释义、拼写错误)与恶意对抗攻击(如语料投毒)的抵抗力。结果显示,相比仅编码器基线,LLM 检索器对拼写错误和语料投毒更鲁棒,但仍易受同义词替换等语义扰动影响。进一步分析表明,嵌入空间几何(如角度均匀性)可预测词汇稳定性,且扩大模型规模通常提升鲁棒性。 这些发现为未来鲁棒性感知的检索器设计与原则性评测提供指导。代码已开源:https://github.com/liyongkang123/Robust_LLM_Retriever_Eval
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 15:38

论文页面 - 论基于 LLM 的稠密检索器的鲁棒性:对泛化能力与稳定性的系统分析

来源:https://huggingface.co/papers/2604.16576

摘要

最先进的开源基于 LLM 的稠密检索器在泛化能力与稳定性上表现不一:指令微调模型性能更佳,但面临“专业化”权衡;嵌入几何结构为提高鲁棒性提供了可解释信号。

解码器-only 大语言模型(https://huggingface.co/papers?q=Decoder-only%20large%20language%20models)(LLM)正逐步取代 BERT 式架构,成为稠密检索(https://huggingface.co/papers?q=dense%20retrieval)的主干,带来显著性能提升并被广泛采用。然而,这些 LLM 检索器的鲁棒性仍缺乏系统研究。本文首次从“泛化能力”与“稳定性”两个互补视角,对 SOTA 开源 LLM 稠密检索器进行鲁棒性系统评估。

  • 泛化能力:我们在覆盖 30 个数据集的 4 个基准上评估检索效果,采用线性混合效应模型(https://huggingface.co/papers?q=linear%20mixed-effects%20models)估计边际平均性能,剥离数据集异质性对模型内在能力的影响。分析发现,指令微调模型(https://huggingface.co/papers?q=instruction-tuned%20models)整体领先,但针对复杂推理优化的模型往往付出“专业化税”,在更广泛场景下泛化受限。
  • 稳定性:我们测试模型对无意查询变化(如复述、拼写错误)以及恶意对抗攻击(如语料投毒)的韧性。结果显示,相比仅编码器基线,LLM 检索器在抗拼写错误和语料投毒方面更鲁棒,但仍易受到同义词替换等语义扰动(https://huggingface.co/papers?q=semantic%20perturbations)的影响。进一步分析表明,嵌入几何结构(https://huggingface.co/papers?q=embedding%20geometry)(如角度均匀性 https://huggingface.co/papers?q=angular%20uniformity)可预测词汇级稳定性,且扩大模型规模普遍提升鲁棒性。

上述发现为未来“鲁棒性优先”的检索器设计与原则化评测提供指导。代码已开源:https://github.com/liyongkang123/Robust_LLM_Retriever_Eval

查看 arXiv 页面(https://arxiv.org/abs/2604.16576)
查看 PDF(https://arxiv.org/pdf/2604.16576)
GitHub0(https://github.com/liyongkang123/Robust_LLM_Retriever_Eval)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.16576)

在智能体中获取本文:

hf papers read 2604.16576

未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 0

暂无模型关联本文

在模型 README.md 中引用 arxiv.org/abs/2604.16576 即可在此页面显示链接。

引用本文的数据集 0

暂无数据集关联本文

在数据集 README.md 中引用 arxiv.org/abs/2604.16576 即可在此页面显示链接。

引用本文的 Spaces 0

暂无 Space 关联本文

在 Space README.md 中引用 arxiv.org/abs/2604.16576 即可在此页面显示链接。

收录本文的合集 0

暂无合集包含本文

新建合集 并将本文加入,即可在此页面显示链接。

相似文章

大语言模型几何表示鲁棒性评测

arXiv cs.CL

# 大语言模型几何表示鲁棒性评测 来源:[https://arxiv.org/html/2604.16421](https://arxiv.org/html/2604.16421) Vedant Jawandhia 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Yash Sinha 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Ankan Pal 数学系,BITS Pilani

超越表面统计:通过内部表示实现LLM鲁棒共形预测

arXiv cs.CL

本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。