文档草垛中的语义针：LLM-as-a-Judge 相似度评分的敏感性测试

arXiv cs.CL 2026/04/22 04:00 论文

摘要

PNNL 与华盛顿大学的研究人员提出一套系统化框架，测试五种大语言模型在文档中捕捉细微语义变化的能力，揭示位置偏差、上下文连贯效应及模型特有的评分“指纹”。

arXiv:2604.18835v1 公告类型：新摘要：我们提出一种可扩展的多因子实验框架，系统化地探查大语言模型在成对文档比较中对细微语义变化的敏感度。我们将其类比为“草垛寻针”问题：将一句语义被改动的句子（针）嵌入周围上下文（草垛）中，并在所有组合中变动扰动类型（否定、连词交换、命名实体替换）、上下文类型（原文本 vs. 主题无关文本）、针的位置以及文档长度，对五种 LLM 测试数万对文档。分析得出几项惊人发现：首先，LLM 表现出一种“文档内位置偏差”，不同于以往研究的候选顺序效应：多数模型对文档前部出现的语义差异惩罚更严。其次，当改动句被主题无关的上下文包围时，相似度得分系统性降低，并出现两极化（要么极低要么极高）评分，这与“解释框架”账户一致：主题相关的上下文能让模型对改动进行情境化并降低其权重。第三，每种 LLM 都会产生独特的评分分布，形成稳定的“指纹”，该指纹不受扰动类型影响；然而所有模型在处理不同扰动类型时的宽容度共享同一层级。综上，LLM 的语义相似度评分对文档结构、上下文连贯性及模型身份均敏感，其敏感程度超出语义变化本身；所提出的框架为审计并比较现有及未来模型的评分行为提供了实用且 LLM 无关的工具箱。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 08:29

# 文档干草堆中的语义针：LLM-as-a-Judge 相似度评分的敏感性测试  
来源：https://arxiv.org/html/2604.18835  
Sinan G. Aksoy¹, Alexandra A. Sabrio¹², Erik VonKaenel¹³, Lee Burke¹  
¹ 太平洋西北国家实验室  
² 圣路易斯华盛顿大学  
³ Humana Inc.  
{first.last}@pnnl.gov, [email protected]  

###### 摘要  
我们提出了一种可扩展、多因子的实验框架，系统探查大语言模型在成对文档比对中对微妙语义变化的敏感度。将其类比为“干草堆寻针”：单句语义改动（针）被嵌入上下文（干草），我们同时扰动类型（否定、连词互换、实体替换）、上下文类型（原主题 vs 无关主题）、针的位置及文档长度，并在上万对文档上测试 5 款 LLM。分析揭示：  
1. 存在“文档内位置偏差”——与候选顺序效应不同，多数模型对靠前语义差异惩罚更重；  
2. 当改动句被无关主题上下文包围时，相似度分数系统降低，并出现极低或极高的“两极化”分布，符合“解释框架”假说：相关上下文可帮助模型淡化改动；  
3. 每款模型都有独特且稳定的评分分布“指纹”，与扰动类型无关，但在不同扰动类型的宽容度上呈现一致层级。  
结果表明，LLM 语义评分对文档结构、上下文连贯性、模型身份均敏感，远超语义变化本身；该框架提供了一套 LLM 无关、可复用、可扩展的审计与对比工具。  

## 1 引言  
LLM-as-a-judge 正快速渗透到科研、教育、医疗、数学推理等场景，替代昂贵人工标注。然而新模型层出不穷，评分行为、偏差难以预判，亟需通用、细致、可扩展的评测流水线。  

成对文档相似度评估是 LLM-as-a-judge 的核心用例之一，应用于查重、聚类、文本脱敏效果衡量等。现实中文档往往仅存在细微语义差异——医疗剂量微调、法律“and/or”互换——即可带来重大后果。人类亦常忽略连贯语篇中的微妙改动，且改动位置影响漏检率。LLM 是否继承或新增类似盲区？为此，我们设计“针在干草堆”式实验：单句语义改动（针）被植入不同长度、位置、主题相关性的上下文（干草），系统扫描多因子组合，生成可扩展的敏感性数据集。  

主要贡献：  
- 提出 LLM 无关、自动化、可扩展的因子实验设计，用于成对文档语义相似度敏感性测试；  
- 在 5 款 LLM（GPT-4o、GPT-5、Claude、Gemini、o4-mini）上实例化，开发位置偏差、文档长度效应、分布指纹、两极化指数等量化指标，清晰区分模型行为。  

该框架不做价值判断，仅提供模块化、可迁移的实验与度量工具，方便社区持续审计现有与未来系统。  

## 2 实验设计  
### 概览  
我们让 LLM 给几乎相同的两段文本打语义相似度分数，区别仅在于一句被语义扰动（针）。针类型：否定插入、连词“and/or”互换、实体替换。针前后插入若干句上下文（干草），干草可来自原文（orig）或随机无关文档（rand）。同时变化针位置（前、中、后）与总句数（长度）。所有参数完全交叉，自动化生成数万对文档，跨模型重复。  

### 形式化描述  
令 𝒰 为原始维基文本集合，清洗后得 40 003 篇文档 𝒞。实验四因子：  
- 针类型 N ∈ {∅, neg, con, ner}  
- 干草类型 H ∈ {orig, rand}  
- 位置 P = {(i,j): i,j ∈ 0,…,9}，i 前句数，j 后句数  
- 模型 L ∈ {GPT-4o, GPT-5, Claude, Gemini, o4-mini}  

共 3000 种参数组合。对每组合随机打乱 𝒞，取文档 d，选中间句 m=⌈|d|/2⌉ 进行语义改动，生成 d(N,H,P)，与未改动版本 d(∅,H,P) 一起送入 LLM 打 0–100 分。当至少 100 篇文档且分数均值稳定即停止。详见附录 A。

文档草垛中的语义针：LLM-as-a-Judge 相似度评分的敏感性测试

相似文章

MM-JudgeBias：评测 MLLM-as-a-Judge 组合偏差的基准

当无基准存在时：验证无真实标签的LLM安全评分比较

SwanNLP在SemEval-2026任务5中的工作：用于叙述词义消歧中合理性评分的LLM框架

你的LLM评判者有多虚伪？大型语言模型语用能力中的听者-说者不对称性

通过句法可预测性的语言学感知型LLM水印技术

提交意见反馈