能力的坐标系:用于大语言模型评估的统一MTMM几何框架
摘要
这篇知识系统化论文提出了一种用于评估大语言模型的统一多特质多方法(MTMM)几何框架,将不同的指标整合到一个共享的潜在坐标空间中,以解决当前基准测试中的构念效度问题。
查看缓存全文
缓存时间: 2026/05/12 06:51
# 能力的坐标:用于大语言模型评估的统一 MTMM-几何框架
来源: https://arxiv.org/html/2605.08522
Adib Sakhawat, Tahsin Islam, Takia Farhin, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan
系统与软件实验室 (SSL)
计算机科学与工程学院
孟加拉国达卡伊斯兰科技大学
\{adibsakhawat, tahsinislam, takiafarhin, rifatraiyan, hasan, hasank\}@iut-dhaka.edu
###### 摘要
大语言模型(LLMs)的评估面临着建构效度(construct validity)的关键挑战,其中碎片化的基准测试和临时性的指标经常将方法方差——例如对提示的敏感性——与真实的潜在能力混为一谈。与此同时,新兴研究表明,LLM 的能力和输出可以被严格地建模为连续的几何流形。在这篇知识系统化(SoK)文章中,我们通过提出一个用于 LLM 评估的广义多特质多方法(MTMM)框架,弥合了这两种范式之间的差距。我们从数学上形式化并统一了九种不同的指标——从释义不稳定性(Paraphrase Instability)和漂移分数(Drift Score)到奥弗顿窗口宽度(Overton Width)和多元主义(Pluralism)——将它们解释为共享潜在坐标空间内的几何测量值(位移、跨度和距离),而非孤立的标量分数。这种空间统一将模型行为分解为三个正交的潜在维度:(1) 不稳定性与敏感性,(2) 位置与对齐,以及 (3) 覆盖度与表达性。通过系统地将从任务无关的扰动中隔离出真实的能力跨度,我们的框架提供了一种稳健的、领域无关的分类体系,推动社区走向理论上坚实且经验上稳定的基准设计。
# 能力的坐标:用于大语言模型评估的统一 MTMM-几何框架
Adib Sakhawat, Tahsin Islam, Takia Farhin, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan
系统与软件实验室 (SSL)
计算机科学与工程学院
孟加拉国达卡伊斯兰科技大学
\{adibsakhawat, tahsinislam, takiafarhin, rifatraiyan, hasan, hasank\}@iut-dhaka.edu
## 1 引言
大语言模型(LLM)能力的迅速扩展引发了评估方法的严重危机。近期对评估领域的系统综述显示,该学科饱受碎片化指标、临时性的基准设计以及普遍的数据污染所困扰(Changet al.,2023 (https://arxiv.org/html/2605.08522#bib.bib1); Niet al.,2025 (https://arxiv.org/html/2605.08522#bib.bib4); Denget al.,2023 (https://arxiv.org/html/2605.08522#bib.bib6))。至关重要的是,当前的基准测试经常未能满足基本的建构效度标准,将表层的方法方差——如提示表述或参考文本伪影——与它们旨在测量的真实底层构念混为一谈(Beanet al.,2025 (https://arxiv.org/html/2605.08522#bib.bib2); Kearns,2026 (https://arxiv.org/html/2605.08522#bib.bib3))。结果是,静态排行榜产生了异质的、标量化的分数,难以可靠地排名模型或预测下游的鲁棒性(Zhanget al.,2025 (https://arxiv.org/html/2605.08522#bib.bib5))。
与此同时,越来越多的工作开始通过几何和空间的视角来形式化 LLM 的表示。对内部激活和标记嵌入的分析表明,语言模型本质上在结构化、低维的潜在流形上运行(Leeet al.,2025 (https://arxiv.org/html/2605.08522#bib.bib11); Ninget al.,2025 (https://arxiv.org/html/2605.08522#bib.bib12); Choi and Weber,2026 (https://arxiv.org/html/2605.08522#bib.bib13))。此外,项目反应理论(Item Response Theory)框架已成功地将模型和评估任务嵌入到共享的欧几里得空间中,将能力建模为几何交互(Yaoet al.,2025 (https://arxiv.org/html/2605.08522#bib.bib10); Yu and coauthors,2026 (https://arxiv.org/html/2605.08522#bib.bib15))。
尽管在表示层面存在这些空间洞察,但输出空间的评估指标在理论上仍然脱节。社区将提示敏感性(Chatterjeeet al.,2024 (https://arxiv.org/html/2605.08522#bib.bib16); Hidaet al.,2025 (https://arxiv.org/html/2605.08522#bib.bib19))、多轮漂移(Dongreet al.,2025a (https://arxiv.org/html/2605.08522#bib.bib21); Liet al.,2025 (https://arxiv.org/html/2605.08522#bib.bib22))、LLM-as-a-judge 不一致性(Yeet al.,2024b (https://arxiv.org/html/2605.08522#bib.bib25))以及意识形态奥弗顿窗口(Azzopardi and Moshfeghi,2025a (https://arxiv.org/html/2605.08522#bib.bib29); Poole-Dayanet al.,2026a (https://arxiv.org/html/2605.08522#bib.bib31))视为孤立的现象。
在这篇知识系统化(SoK)文章中,我们通过提出一个映射到共享几何坐标空间的广义多特质多方法(MTMM)框架,弥合了这一理论差距。我们从数学上形式化并统一了九种不同的评估指标——包括释义不稳定性分数(PIS)、漂移分数(DS)和多元主义分数(PS)——将它们重新解释为位移、跨度和距离的空间测量值。通过将这些指标投影到 MTMM 矩阵中,我们证明评估分数并非独立的构念,而是三个正交潜在维度的噪声可观测量:(1) 不稳定性与敏感性,(2) 位置与对齐,以及 (3) 覆盖度与表达性。
我们的核心贡献如下:
- 我们系统化了当前关于 LLM 评估的文献,强调了潜在构念建模对于克服建构效度危机的必要性。
- 我们将九种广泛使用但此前相互脱节的评估指标形式化为在广义输出空间中运行的显式几何方程。
- 我们引入了一种 MTMM 分类法,严格地将任务无关的方法方差与真实的能力跨度分离开来,为下一代稳健的、领域无关的 LLM 评估框架提供了基础蓝图。
## 2 背景:建构效度与几何表示
为了系统地论证多特质多方法(MTMM)框架的动机,我们必须首先描绘近期 NLP 评估文献的双重轨迹:关于建构效度危机日益增长的共识,以及语言模型能力在结构化、低维几何流形上运作的平行且独立的发现。
### 2.1 建构效度的危机
当前的 LLM 评估范式的特点是静态基准的大量涌现,这些基准越来越无法测量它们声称代表的潜在构念。广泛的调查显示,评估领域高度碎片化,依赖临时性的指标设计而非理论驱动测量(Changet al.,2023 (https://arxiv.org/html/2605.08522#bib.bib1); Niet al.,2025 (https://arxiv.org/html/2605.08522#bib.bib4))。在对来自顶级会议的 445 个基准的系统综述中,Beanet al.(2025 (https://arxiv.org/html/2605.08522#bib.bib2))发现了普遍的建构效度失败,指出系统性地无法将测试项目稳健地映射到定义良好的能力上。
这种脱节因数据污染而严重加剧。基于检索和探测的分析表明,模型经常利用预训练重叠,在 MMLU 等基准中超过 50% 的情况下成功猜测掩码答案选项(Denget al.,2023 (https://arxiv.org/html/2023))。因此,排行榜通常捕捉的是方法方差——如记忆或对参考文本伪影的敏感性——而非真实的特质方差(Sottanaet al.,2023 (https://arxiv.org/html/2605.08522#bib.bib7))。聚合标量分数通过隐藏严重的内部异质性进一步掩盖了这一问题。Kimet al.(2026 (https://arxiv.org/html/2605.08522#bib.bib8))通过“功能碎片化”证明,具有相同顶层分数的模型表现出截然不同的子能力概况。为了严格地对此进行建模,Kearns(2026 (https://arxiv.org/html/2605.08522#bib.bib3))应用了结构化能力模型,证明朴素因子模型倾向于代理模型规模而非特定能力,除非使用显式的潜在构念建模。这一共识需要能够显式地将测量误差与潜在能力分离的框架,这是 MTMM 架构原生具备的功能(Zhanget al.,2025 (https://arxiv.org/html/2605.08522#bib.bib5))。
### 2.2 LLM 表示的几何拓扑
与此同时,另一部分独立的研究确立,LLM 的内部表示和输出表现出严格的几何结构,将高维潜在空间视为推理的主要基质(Yu and coauthors,2026 (https://arxiv.org/html/2605.08522#bib.bib15))。对跨不同架构的标记嵌入的分析揭示了共享的全局方向性和局部流形结构,表明语义能力映射到一致的坐标空间,无论具体模型参数如何(Leeet al.,2025 (https://arxiv.org/html/2605.08522#bib.bib11))。
这种几何规律性高度可观察;逐层激活的降维揭示了注意力机制和 MLP 组件之间的清晰结构分离(Ninget al.,2025 (https://arxiv.org/html/2605.08522#bib.bib12)),并且流形学习已成功直接从嵌入中恢复出潜在的情感和语义拓扑(Choi and Weber,2026 (https://arxiv.org/html/2605.08522#bib.bib13))。对评估而言最关键的是,Yaoet al.(2025 (https://arxiv.org/html/2605.08522#bib.bib10))提出的联合嵌入项目反应理论(JE-IRT)将语言模型和评估问题都嵌入到共享的欧几里得空间中。通过将问题语义编码为方向向量,将难度编码为范数,JE-IRT 从数学上证明了模型与基准之间的交互本质上是几何现象。我们的框架扩展了这种空间直觉,认为评估不稳定性、对齐和多元主义的指标普遍可以测量为这些流形内的位移和跨度。
### 2.3 经验症状:不稳定性、漂移与评估者偏差
在没有统一的几何框架的情况下,该领域将 LLM 的结构脆弱性视为孤立异常,而不是共享潜在“不稳定性”特质的方面。
##### 提示敏感性
研究表明,表层提示变化会引起剧烈的性能波动。提示敏感性指数(POSIX)显示了在保持意图的变体之间大量的对数似然转移(Chatterjeeet al.,2024 (https://arxiv.org/html/2605.08522#bib.bib16))。同样,日语提示模板中的微小结构变化已被证明会使任务准确率减半,即使对于前沿模型也是如此(Gan and Mori,2023 (https://arxiv.org/html/2605.08522#bib.bib17))。至关重要的是,社会偏见评估可能会根据指令措辞和少样本示例完全翻转模型排名(Hidaet al.,2025 (https://arxiv.org/html/2605.08522#bib.bib19))。这些变异在经验上验证了提示敏感性必须被建模为显式的潜在维度,而不能作为噪声被忽略。
##### 多轮漂移
在对话场景中,单轮准确率分数无法预测多轮鲁棒性(Kwanet al.,2024 (https://arxiv.org/html/2605.08522#bib.bib20))。Dongreet al.(2025a (https://arxiv.org/html/2605.08522#bib.bib21))将上下文漂移建模为偏离目标一致参考的有界随机过程,而对对抗性多轮交互的生存分析识别出语义漂移是加速失效时间的主要危险因子(Liet al.,2025 (https://arxiv.org/html/2605.08522#bib.bib22))。
##### 评估者偏差
当 LLM 被用作评估者时,它们表现出严重的不一致性,包括熟悉度偏差、锚定效应和偏斜的评分分布(Stureborget al.,2024 (https://arxiv.org/html/2605.08522#bib.bib24))。如 CALM 等框架定义了多达十二种不同的判断偏差类型,通过原则性扰动下的决策翻转率量化不稳定性(Yeet al.,2024b (https://arxiv.org/html/2605.08522#bib.bib25))。自动化扰动发现进一步强调,即使在复杂的评估实例中,强大的 LLM 评估者也经常表现得不比随机猜测好或更差(Laiet al.,2026 (https://arxiv.org/html/2605.08522#bib.bib27))。
### 2.4 超越点估计:奥弗顿窗口与多元主义
最后,广义评估框架必须区分模型的中心位置及其输出的分布跨度。Azzopardi 和 Moshfeghi(2025a (https://arxiv.org/html/2605.08522#bib.bib29))引入了政治奥弗顿窗口(POW)框架,映射模型将拥护或拒绝的观点边界,证明窗口宽度是一个与点估计意识形态完全不同的属性。这种区别通过奥弗顿多元主义形式化。使用集合覆盖指标,Poole-Dayanet al.(2026a (https://arxiv.org/html/2605.08522#bib.bib31))表明,OvertonScore 与政治中立性呈中度负相关,证明多元主义(涵盖多个合法观点)不能简化为产生安全的、中间派的输出。这些输出的可引导性与潜在的“意识形态深度”(Kabiret al.,2025 (https://arxiv.org/html/2605.08522#bib.bib33))有关,并且这些推断的意识形态坐标足够稳健,可以成功替代专家政治调查(Wu,2025 (https://arxiv.org/html/2605.08522#bib.bib34))。
总体而言,这些文献规定,统一的分类法必须将中心位置、输出跨度和双向覆盖度分离为不同的几何坐标,直接促成了我们提出的 MTMM 框架的形式化。
## 3 理论框架:潜在坐标空间中的 MTMM
为了解决第 2 节(https://arxiv.org/html/2605.08522#S2)中概述的建构效度危机,评估指标必须超越将语言模型输出视为孤立的、离散的字符串或二元正确性标签。我们提出了一个形式化的框架,通过将不同的评估方法嵌入到共享的几何空间中来实现统一。通过将模型生成映射到显式的坐标向量,我们可以将评估数学分解为多特质多方法(MTMM)矩阵,其中不同的指标仅仅是对相同潜在特质应用的不同几何算子(例如,距离、方差、凸包)。
### 3.1 定义输出空间:数学基础
在介绍正式数学构造之前,我们提供该框架的直观视图。考虑一个简单的场景,其中模型被要求使用多个语义等效的提示(例如,释义)回答同一个问题。如果模型拥有稳定且根基牢固的内部表示,无论措辞如何 superficially 变化,其输出在意义上应保持一致。在几何解释中,这意味着所有此类输出都应映射到共享潜在空间内的邻近点。相反,如果措辞的微小变化导致生成响应的大幅变化,相应的点将广泛分散,表明不稳定性。
扩展这种直觉,对齐可以被理解为模型输出与该空间中参考点之间的距离,而表达性对应于模型输出在不同区域之间的跨越程度。因此,评估简化为在连续坐标系中测量距离、位移和跨度,而不是直接比较离散的文本输出。相似文章
大语言模型几何表示鲁棒性评测
# 大语言模型几何表示鲁棒性评测 来源:[https://arxiv.org/html/2604.16421](https://arxiv.org/html/2604.16421) Vedant Jawandhia 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Yash Sinha 计算机科学与信息系统系,BITS Pilani \{f20220627, dhruv\.kumar, yash\.sinha\}@pilani\.bits\-pilani\.ac\.in Ankan Pal 数学系,BITS Pilani
MM-JudgeBias:评测 MLLM-as-a-Judge 组合偏差的基准
研究者发布 MM-JudgeBias 基准,揭示多模态大模型在充当自动评判器时的系统性组合偏差,对 26 个 SOTA MLLM 在 1,800 条样本上进行测试。
前沿大语言模型中的领域级元认知监控:一份33个模型图谱
本研究提出了一份涵盖33个模型的图谱,利用MMLU基准分析了前沿大语言模型中的领域级元认知监控,揭示了聚合指标所掩盖的不同知识领域中置信度校准的显著差异。
面向专业人类与大语言模型协作的能力条件化支架
介绍了能力条件化支架,一种用于大语言模型协作的框架,根据用户专业领域调整干预措施以防止专业领域漂移,并在MMLU子集上进行了试点评估。
TabularMath:用大语言模型理解表格上的数学推理
TabularMath 引入了一个基准和 AutoT2T 框架来评估 LLM 对表格数据的数学推理能力,揭示表格复杂性、数据质量和模态对模型性能的重大影响。该研究通过系统地评估模型对真实场景中不完整或不一致表格信息的鲁棒性,填补了 LLM 评估中的空白。