ECI_{sem}: 语义残差有效对比信息用于评估难负样本

Hugging Face Daily Papers 2026/06/05 00:00 论文

hard-negative semantic-residual dense-retrieval effective-contrastive-information training-free ms-marco beir

摘要

ECI_sem是一种无需训练的方法，通过使用冻结的嵌入对密集检索中的难负样本源进行排序，在MS MARCO和BEIR基准上取得了强性能。

密集检索中的难负样本源选择通常只有在微调和下游评估后才能确定。我们提出了ECI_{sem}，它是有效对比信息（ECI）的一种语义残差变体，利用冻结的目标编码器嵌入对候选负样本源进行排序。ECI_{sem}无需训练，但并非无需标签：每个打分的样本都需要一个查询、一个标记的正样本和一个明确的候选负样本。ECI_{sem}从目标一致性、语义局部性、词汇残差性和对数行列式多样性目标构建一个加权残差信息矩阵。在MS MARCO负样本源上，族内ECI_{sem}将LLM负样本排在非混合源中的最高位，将Dense+LLM排在混合源中的最高位，这与DistilBERT、E5-base和Contriever上最强的聚合BEIR迁移结果相匹配。控制消融实验表明，这种对齐依赖于使用目标编码器族，而额外的消融实验显示在样本量、温度、分词器和IDF语料扰动下的稳定性。理论给出了与损失减少的局部线性化联系，而实证研究将下游评估作为最终测试。

查看原文

查看缓存全文

缓存时间: 2026/06/08 23:18

论文页面 - ECI_{sem}：用于评估难负样本的语义残差有效对比信息

来源：https://huggingface.co/papers/2603.20990
发布日期：6月5日

·
由 https://huggingface.co/chungimungi 提交

Aarush (https://huggingface.co/chungimungi) 于6月8日

摘要

ECI_{sem} 是有效对比信息的一种语义残差变体，它利用冻结的嵌入向量对密集检索的负样本源进行排序，无需训练，在 MS MARCO 和 BEIR 基准测试上取得了强劲性能。

密集检索中的难负样本源选择通常只有在微调和下游评估之后才能确定。我们提出 ECI_{sem}——有效对比信息 (ECI) 的语义残差变体，该变体使用冻结的目标编码器嵌入向量来对候选负样本源进行排序。ECI_{sem} 无需训练，但需要标签：每个得分的样本需包含一个查询、一个已标注的正样本以及一个显式的候选负样本。ECI_{sem} 从目标一致性、语义局部性、词汇残差性和一个对数行列式多样性目标出发，构建了一个加权残差信息矩阵。在 MS MARCO 负样本源上，同族 ECI_{sem} 在非混合源中将 LLM 负样本排为最高，在混合源中将 Dense+LLM 排为最高，这与 DistilBERT、E5-base 和 Contriever 上最强的聚合 BEIR 迁移结果相匹配。受控消融实验表明，这种一致性依赖于使用目标编码器族，而额外的消融实验则显示其在样本量、温度、分词器和 IDF 语料扰动下具有稳定性。理论给出了与损失降低的局部线性化联系，而实证研究则将下游评估作为最终测试。

查看 arXiv 页面 (https://arxiv.org/abs/2603.20990)
查看 PDF (https://arxiv.org/pdf/2603.20990)
加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2603.20990)

在您的代理中获取此论文：

hf papers read 2603.20990

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2603.20990，以从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2603.20990，以从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2603.20990，以从此页面链接。

包含此论文的合集 0

没有合集包含此论文

请将此论文添加到合集 (https://huggingface.co/new-collection) 中，以从此页面链接。

ECI_{sem}: 语义残差有效对比信息用于评估难负样本

论文页面 - ECI_{sem}：用于评估难负样本的语义残差有效对比信息

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 0

相似文章

HNC：利用困难负样本描述提升模型的细粒度视觉-语言理解能力

Sem-Detect: 面向语义级别的AI生成同行评审检测方法

Concrete Jungle：利用词汇具体性铺路，革新对比负样本挖掘以提升组合理解

当Softmax在顶部失败时：InfoNCE的极值校正

证据缺失并非证据不足：事实核查中NEI构建伪影的诊断

提交意见反馈