文档草垛中的语义针:LLM-as-a-Judge 相似度评分的敏感性测试
摘要
PNNL 与华盛顿大学的研究人员提出一套系统化框架,测试五种大语言模型在文档中捕捉细微语义变化的能力,揭示位置偏差、上下文连贯效应及模型特有的评分“指纹”。
arXiv:2604.18835v1 公告类型:新
摘要:我们提出一种可扩展的多因子实验框架,系统化地探查大语言模型在成对文档比较中对细微语义变化的敏感度。我们将其类比为“草垛寻针”问题:将一句语义被改动的句子(针)嵌入周围上下文(草垛)中,并在所有组合中变动扰动类型(否定、连词交换、命名实体替换)、上下文类型(原文本 vs. 主题无关文本)、针的位置以及文档长度,对五种 LLM 测试数万对文档。分析得出几项惊人发现:首先,LLM 表现出一种“文档内位置偏差”,不同于以往研究的候选顺序效应:多数模型对文档前部出现的语义差异惩罚更严。其次,当改动句被主题无关的上下文包围时,相似度得分系统性降低,并出现两极化(要么极低要么极高)评分,这与“解释框架”账户一致:主题相关的上下文能让模型对改动进行情境化并降低其权重。第三,每种 LLM 都会产生独特的评分分布,形成稳定的“指纹”,该指纹不受扰动类型影响;然而所有模型在处理不同扰动类型时的宽容度共享同一层级。综上,LLM 的语义相似度评分对文档结构、上下文连贯性及模型身份均敏感,其敏感程度超出语义变化本身;所提出的框架为审计并比较现有及未来模型的评分行为提供了实用且 LLM 无关的工具箱。
查看缓存全文
缓存时间: 2026/04/22 08:29
# 文档干草堆中的语义针:LLM-as-a-Judge 相似度评分的敏感性测试
来源:https://arxiv.org/html/2604.18835
Sinan G. Aksoy¹, Alexandra A. Sabrio¹², Erik VonKaenel¹³, Lee Burke¹
¹ 太平洋西北国家实验室
² 圣路易斯华盛顿大学
³ Humana Inc.
{first.last}@pnnl.gov, [email protected]
###### 摘要
我们提出了一种可扩展、多因子的实验框架,系统探查大语言模型在成对文档比对中对微妙语义变化的敏感度。将其类比为“干草堆寻针”:单句语义改动(针)被嵌入上下文(干草),我们同时扰动类型(否定、连词互换、实体替换)、上下文类型(原主题 vs 无关主题)、针的位置及文档长度,并在上万对文档上测试 5 款 LLM。分析揭示:
1. 存在“文档内位置偏差”——与候选顺序效应不同,多数模型对靠前语义差异惩罚更重;
2. 当改动句被无关主题上下文包围时,相似度分数系统降低,并出现极低或极高的“两极化”分布,符合“解释框架”假说:相关上下文可帮助模型淡化改动;
3. 每款模型都有独特且稳定的评分分布“指纹”,与扰动类型无关,但在不同扰动类型的宽容度上呈现一致层级。
结果表明,LLM 语义评分对文档结构、上下文连贯性、模型身份均敏感,远超语义变化本身;该框架提供了一套 LLM 无关、可复用、可扩展的审计与对比工具。
## 1 引言
LLM-as-a-judge 正快速渗透到科研、教育、医疗、数学推理等场景,替代昂贵人工标注。然而新模型层出不穷,评分行为、偏差难以预判,亟需通用、细致、可扩展的评测流水线。
成对文档相似度评估是 LLM-as-a-judge 的核心用例之一,应用于查重、聚类、文本脱敏效果衡量等。现实中文档往往仅存在细微语义差异——医疗剂量微调、法律“and/or”互换——即可带来重大后果。人类亦常忽略连贯语篇中的微妙改动,且改动位置影响漏检率。LLM 是否继承或新增类似盲区?为此,我们设计“针在干草堆”式实验:单句语义改动(针)被植入不同长度、位置、主题相关性的上下文(干草),系统扫描多因子组合,生成可扩展的敏感性数据集。
主要贡献:
- 提出 LLM 无关、自动化、可扩展的因子实验设计,用于成对文档语义相似度敏感性测试;
- 在 5 款 LLM(GPT-4o、GPT-5、Claude、Gemini、o4-mini)上实例化,开发位置偏差、文档长度效应、分布指纹、两极化指数等量化指标,清晰区分模型行为。
该框架不做价值判断,仅提供模块化、可迁移的实验与度量工具,方便社区持续审计现有与未来系统。
## 2 实验设计
### 概览
我们让 LLM 给几乎相同的两段文本打语义相似度分数,区别仅在于一句被语义扰动(针)。针类型:否定插入、连词“and/or”互换、实体替换。针前后插入若干句上下文(干草),干草可来自原文(orig)或随机无关文档(rand)。同时变化针位置(前、中、后)与总句数(长度)。所有参数完全交叉,自动化生成数万对文档,跨模型重复。
### 形式化描述
令 𝒰 为原始维基文本集合,清洗后得 40 003 篇文档 𝒞。实验四因子:
- 针类型 N ∈ {∅, neg, con, ner}
- 干草类型 H ∈ {orig, rand}
- 位置 P = {(i,j): i,j ∈ 0,…,9},i 前句数,j 后句数
- 模型 L ∈ {GPT-4o, GPT-5, Claude, Gemini, o4-mini}
共 3000 种参数组合。对每组合随机打乱 𝒞,取文档 d,选中间句 m=⌈|d|/2⌉ 进行语义改动,生成 d(N,H,P),与未改动版本 d(∅,H,P) 一起送入 LLM 打 0–100 分。当至少 100 篇文档且分数均值稳定即停止。详见附录 A。相似文章
MM-JudgeBias:评测 MLLM-as-a-Judge 组合偏差的基准
研究者发布 MM-JudgeBias 基准,揭示多模态大模型在充当自动评判器时的系统性组合偏差,对 26 个 SOTA MLLM 在 1,800 条样本上进行测试。
当无基准存在时:验证无真实标签的LLM安全评分比较
本文介绍了一个框架,用于在没有真实标签的情况下验证LLM安全评分比较,通过使用'工具有效性链'来建立部署证据。该方法通过一个名为SimpleAudit的本地优先工具在挪威安全包上进行了演示,并比较了Borealis和Gemma 3等模型。
SwanNLP在SemEval-2026任务5中的工作:用于叙述词义消歧中合理性评分的LLM框架
SwanNLP在SemEval-2026任务5中提出了一个基于LLM的合理性评分框架,用于叙述词义消歧任务。该框架采用结构化推理和动态少样本提示技术,预测短篇故事中词义的人类感知合理性。研究表明,通过少样本提示和模型集成,商用大参数语言模型能够有效复现真实叙述场景中的人类判断模式。
你的LLM评判者有多虚伪?大型语言模型语用能力中的听者-说者不对称性
本文通过比较LLM作为语言恰当性评判者与作为语用恰当语言生成者的表现,研究了LLM语用能力中的不对称性。研究发现,许多模型作为语用听者的表现显著优于作为说者的表现,表明评估能力与生成能力之间存在错位。
通过句法可预测性的语言学感知型LLM水印技术
本文介绍了STELA,一个语言学感知的LLM水印框架,通过POS n-gram的句法可预测性来平衡文本质量和检测鲁棒性。该方法无需访问模型logits即可实现公开可验证的水印检测,在类型学多样化的语言(英语、中文、韩语)上展示了优异性能。