ECI_{sem}: 语义残差有效对比信息用于评估难负样本

Hugging Face Daily Papers 论文

摘要

ECI_sem是一种无需训练的方法,通过使用冻结的嵌入对密集检索中的难负样本源进行排序,在MS MARCO和BEIR基准上取得了强性能。

密集检索中的难负样本源选择通常只有在微调和下游评估后才能确定。我们提出了ECI_{sem},它是有效对比信息(ECI)的一种语义残差变体,利用冻结的目标编码器嵌入对候选负样本源进行排序。ECI_{sem}无需训练,但并非无需标签:每个打分的样本都需要一个查询、一个标记的正样本和一个明确的候选负样本。ECI_{sem}从目标一致性、语义局部性、词汇残差性和对数行列式多样性目标构建一个加权残差信息矩阵。在MS MARCO负样本源上,族内ECI_{sem}将LLM负样本排在非混合源中的最高位,将Dense+LLM排在混合源中的最高位,这与DistilBERT、E5-base和Contriever上最强的聚合BEIR迁移结果相匹配。控制消融实验表明,这种对齐依赖于使用目标编码器族,而额外的消融实验显示在样本量、温度、分词器和IDF语料扰动下的稳定性。理论给出了与损失减少的局部线性化联系,而实证研究将下游评估作为最终测试。
查看原文
查看缓存全文

缓存时间: 2026/06/08 23:18

论文页面 - ECI_{sem}:用于评估难负样本的语义残差有效对比信息

来源:https://huggingface.co/papers/2603.20990
发布日期:6月5日

·
由 https://huggingface.co/chungimungi 提交

Aarush (https://huggingface.co/chungimungi) 于6月8日

摘要

ECI_{sem} 是有效对比信息的一种语义残差变体,它利用冻结的嵌入向量对密集检索的负样本源进行排序,无需训练,在 MS MARCO 和 BEIR 基准测试上取得了强劲性能。

密集检索中的难负样本源选择通常只有在微调和下游评估之后才能确定。我们提出 ECI_{sem}——有效对比信息 (ECI) 的语义残差变体,该变体使用冻结的目标编码器嵌入向量来对候选负样本源进行排序。ECI_{sem} 无需训练,但需要标签:每个得分的样本需包含一个查询、一个已标注的正样本以及一个显式的候选负样本。ECI_{sem} 从目标一致性、语义局部性、词汇残差性和一个对数行列式多样性目标出发,构建了一个加权残差信息矩阵。在 MS MARCO 负样本源上,同族 ECI_{sem} 在非混合源中将 LLM 负样本排为最高,在混合源中将 Dense+LLM 排为最高,这与 DistilBERT、E5-base 和 Contriever 上最强的聚合 BEIR 迁移结果相匹配。受控消融实验表明,这种一致性依赖于使用目标编码器族,而额外的消融实验则显示其在样本量、温度、分词器和 IDF 语料扰动下具有稳定性。理论给出了与损失降低的局部线性化联系,而实证研究则将下游评估作为最终测试。

查看 arXiv 页面 (https://arxiv.org/abs/2603.20990)
查看 PDF (https://arxiv.org/pdf/2603.20990)
加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2603.20990)

在您的代理中获取此论文:

hf papers read 2603.20990

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2603.20990,以从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2603.20990,以从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2603.20990,以从此页面链接。

包含此论文的合集 0

没有合集包含此论文

请将此论文添加到合集 (https://huggingface.co/new-collection) 中,以从此页面链接。

相似文章

Sem-Detect: 面向语义级别的AI生成同行评审检测方法

arXiv cs.CL

Sem-Detect 提出了一种结合文本特征与声明级语义分析的方法,用于区分AI生成的同行评审与人类撰写的评审。在0.1%假阳性率下,其真阳性率相比基线提升了25.5%,并且表明经过大语言模型润色的人类评审仍保留独特的语义信号,仅有不到3.5%被误判为AI生成。

当Softmax在顶部失败时:InfoNCE的极值校正

arXiv cs.LG

该论文指出了基于softmax的InfoNCE损失与现代对比学习中的归一化嵌入设置之间的不一致性。它提出了WEINCE,一种简单的修改,利用极值理论将softmax logits与端点短缺校正相结合,在视觉基准测试中取得了持续的改进。