FormInv:数学推理基准中语义不变性的测量协议
摘要
FormInv 提出了一种用于评估数学推理基准中语义不变性的测量协议,揭示了模型排名在释义族之间反转,并且标准准确率指标掩盖了语义一致性上的巨大差距。
arXiv:2605.29001v1 Announce Type: new
摘要:对 MathCheck(ICLR 2025)的释义质量审计发现,在 129 个组中有 4 个语义不正确的释义(3.1%);移除它们后,GPT-4o 从第 2 位跌至第 4 位,而 Claude Haiku 和 DeepSeek V3 则升至其之上;这些排名变化在任何单一模型评估中都是不可见的。跨模型一致性以不到 10 美元的成本自动发现了这些错误(对于 MathCheck,≥ 3/4 的模型;对于我们的主要评估,≥ 6/9);在我们自己的数据集中,相同的协议发现 47% 的自动生成的连接变体释义在语义上不正确。这一缺陷加剧了更深层的测量差距:Claude Haiku 4.5 达到了 86% 的准确率,但 SCR=50%,意味着其一半的定理在语义等价的重新表述下得到了不同的答案,而 9 个模型的总体准确率范围仅为 86-96%,但语义一致性率(SCR)范围却达到 50-82% —— 这是一个标准基准无法察觉的 32 个百分点的差距。形式上,对于 9 个前沿模型的任何目标排名,都存在一个关于释义族的权重分配来实现它(无免费基准推论),因为没有模型在所有族上帕累托占优 —— 因此,选择释义族的基准设计者实际上是在暗中决定哪个模型获胜。FormInv 提供了审计协议(在外部基准上以 100% 召回率复现)、SCR 和每个定理的 Cochran's Q 作为主要不变性度量,在 366-811 个项目上对 9 个模型进行了评估(基于 Lean4 验证的定理),以及用于情境感知模型选择的 FormInvSelector。
查看缓存全文
缓存时间: 2026/05/29 09:14
# 数学推理基准中语义不变性的测量协议
来源:https://arxiv.org/html/2605.29001 \\icml@noticeprintedtrue
Nishal Thomas¹†平等贡献\. 独立研究员 nishal\.thomas44@gmail\.com
Noel Thomas¹†平等贡献\. 穆罕默德·本·扎耶德人工智能大学 noel\.thomas@mbzuai\.ac\.ae
###### 摘要
一项针对 MathCheck (Zhou 等,2024b (https://arxiv.org/html/2605.29001#bib.bib32)) (ICLR 2025) 的释义质量审计发现,在 129 个分组中有 4 个语义不正确的释义(3.1%);移除这些释义后,GPT-4o 从第 2 名降至第 4 名,Claude Haiku 和 DeepSeek V3 则升至其前;这些排名变化在单一模型评估中是不可见的。跨模型一致性自动发现了这些错误(MathCheck 需 ≥3/4 模型一致;我们的主要评估需 ≥9/9 模型一致),成本低于 10 美元;在我们自己的数据集中,同一协议发现 47% 的自动生成的连接变体释义是语义不正确的。这一缺陷加剧了一个更深的测量差距:Claude Haiku 4.5 达到了 86% 的准确率,但 SCR 仅为 50%,这意味着它有一半的定理在语义等价的复述下得到了不同的回答,而 9 个模型的总体准确率跨度仅为 86–96%,但语义一致性率 (SCR) 跨度却为 50–82%——这是一个标准基准无法发现的 32 个百分点的差距。形式上,对于任意目标排名(针对 9 个前沿模型),存在一个权重 λ∈Δ⁷(在释义族上),使得 λ⊤SCR 实现该排名(无免费基准推论),因为没有模型在所有族上帕累托占优——因此,选择族的基准设计者实际上是在暗中选择哪个模型获胜。
FormInv 提供了审计协议(在外部基准上实现 100% 召回率)、SCR 和每个定理的 Cochran's Q 作为主要不变性度量,并在 9 个模型的 366–811 个项(基于 Lean4 验证的定理)上进行了评估,以及 FormInvSelector 用于基于情景的模型选择。
## 1 引言
考虑关于同一定理的两个问题:“对于每个实数 x,x≥0 成立吗?”和“对于任意实数 x,0≤x 成立吗?”这些陈述在逻辑上是等价的(在 Lean4 实分析的约定下)。然而,Claude Sonnet 在 16.7% 的比较顺序释义 (F6) 中正确回答了第一个,却错误回答了第二个。GPT-4o 在此类变换上的失败率为 0.0%。反转族:要求两个模型通过扩展识别定义 (F7),排名随之反转:GPT-4o 失败率为 10.0%,而 Claude 失败率为 6–8%。同一对前沿模型、相同的定理,相反的弱点。
模型排名在不同释义族间发生反转。
这是 FormInv 的核心发现。为什么这很重要?当实践者问“模型 X 是否擅长数学推理?”并使用基准准确率来回答时,他们隐含假设答案与问题表述方式无关。这一假设是错误的。在 9 个前沿模型中,我们发现准确率只讲述了一半的故事:Claude Haiku 4.5 达到了 86% 的准确率,但 SCR 仅为 50%——其一半的定理在语义等价的复述下回答不一致。DeepSeek V3 准确率 96.4%,SCR 为 82%。10 个百分点的准确率差距掩盖了 32 个百分点的 SCR 差距,而后者才是区分表面模式识别与真正数学理解的关键属性。这种失败(尽管概念等价,但对表述方式敏感)正是心理测量学中所谓的“项目功能差异”(Holland 和 Thayer,1988 (https://arxiv.org/html/2605.29001#bib.bib4)),通过 Doob 的 L² 条件期望定理 (1953) (Doob,1953 (https://arxiv.org/html/2605.29001#bib.bib1)) 形式化,并由测量不变性理论 (Vandenberg 和 Lance,2000 (https://arxiv.org/html/2605.29001#bib.bib2)) 操作化。据我们所知,FormInv 是第一个将这一测量传统应用于形式化数学推理的协议,使用了 Lean4 验证的定理和基于 DIF 的不变性指标。
这一差距是显著的。表 1 (https://arxiv.org/html/2605.29001#S1.T1) 调查了八个基准以及它们如何(如果有的话)验证释义的语义等价性:没有一个应用逻辑等价性检查或跨模型一致性。
表 1:已发布基准中的释义质量。† 没有应用逻辑等价性验证或跨模型一致性。† 引用:GSM8K (Cobbe 等,2021 (https://arxiv.org/html/2605.29001#bib.bib24))、MATH (Hendrycks 等,2021b (https://arxiv.org/html/2605.29001#bib.bib23))、MathBench (Liu 等,2024 (https://arxiv.org/html/2605.29001#bib.bib25))、MathCheck (Zhou 等,2024b (https://arxiv.org/html/2605.29001#bib.bib32))、GSM-Plus (Paster 等,2024 (https://arxiv.org/html/2605.29001#bib.bib37))、PutnamGAP (Hao 等,2025 (https://arxiv.org/html/2605.29001#bib.bib30))、Zhou 等 (Zhou 等,2024a (https://arxiv.org/html/2605.29001#bib.bib20))、PromptBench (Zhu 等,2024 (https://arxiv.org/html/2605.29001#bib.bib27))。
应用于我们自己的数据集时,FormInv 的跨模型一致性发现,在审计的 15 个 F5 释义中有 47% 是语义不正确的:这些错误在单模型评估中不可见,但通过一致性暴露出来。在 FormInv v1 中产生这些错误的同一生成机制(LLM + “保持答案”指令 + 人工自然语言流畅性检查)在 MathCheck 和 GSM-Plus 中被原样使用(表1 (https://arxiv.org/html/2605.29001#S1.T1))。每次评估每个模型成本约为 1 美元,适用于任何形式化指定的基准。
#### 贡献。
1. **不变性框架**。SCR 和每个定理的 Cochran's Q 形式化了语义不变性;IG = √[p(1-p)] 是一个补充统计量(注1 (https://arxiv.org/html/2605.29001#Thmproposition1))。我们证明了命题 1–2(误差界;排名反转条件),并将 8 个释义族分类为 T1(可正式认证)、T2(条件有效)和 T3(启发式)层级(表2 (https://arxiv.org/html/2605.29001#S3.T2))。
2. **FormInv 基准**。760 个项,涵盖 103 个 Lean4 验证的 Mathlib4 定理,分布在 8 个释义族中;9 模型评估;811 个项来自 100 个更难的 ntp-mathlib 定理。释义等价性通过 CAS (T1)、模板 (T2) 和领域专家评审 (T3) 建立。
3. **FormInvSelector**。一种算法,利用每个族的 SCR 配置文件推荐预期失败率最低的模型。`forminv selector --families unpack order` 运行时间 0.1 秒。
4. **释义质量审计**。跨模型一致性(≥6/9 个模型未通过某个释义但通过了标准释义)自动标记语义不正确的释义。应用于 FormInv v1:在 GPT-4o 生成的项中发现了 11 个错误(双条件越界、被动语态反转、类型上下文剥离)。
## 2 相关工作
#### 数学推理基准。
MATH (Hendrycks 等,2021b (https://arxiv.org/html/2605.29001#bib.bib23)) 和 GSM8K (Cobbe 等,2021 (https://arxiv.org/html/2605.29001#bib.bib24)) 测量最终答案准确率。ChaosBench-Logic (Thomas,2026a (https://arxiv.org/html/2605.29001#bib.bib22)) 引入了带有形式本体论的族级评估。MathBench (Liu 等,2024 (https://arxiv.org/html/2605.29001#bib.bib25)) 涵盖多个数学领域。FormalMATH (Yu 等,2025 (https://arxiv.org/html/2605.29001#bib.bib15)) 对 5560 个 Lean4 验证的问题进行基准测试;顶级模型仅达到 16.46%。所有基准都评估了标准表述的准确率;没有一个测试表述不变性。
#### 情景依赖评估。
排名依赖于隐藏评估变量的想法已有先例。Thomas (2026b (https://arxiv.org/html/2605.29001#bib.bib36)) 表明贝叶斯优化算法的排名在不同的预算-候选池比 (B/|A|) 下会发生符号反转:Greedy 在 B=50 时排名第一,在 B=100 时排名最后,基于相同的基准;98% 的 BO 论文从未将这一维度作为受控轴进行变化。FormInv 在 LLM 评估中记录了相同的现象:模型排名在不同释义族间反转(命题3 (https://arxiv.org/html/2605.29001#Thmproposition3)),并且在难度区间间也反转(§7 (https://arxiv.org/html/2605.29001#S7)),目前没有基准控制这两个轴。在形式定理证明中,Taylor 等人 (2026 (https://arxiv.org/html/2605.29001#bib.bib13)) 表明,在 Mathlib 标准表述和 Tao's Analysis-I 表述之间切换同一定理时,性能下降约 26%:这是 Lean4 中 IG 现象的直接经验证据。de Zarzà 等人 (2026 (https://arxiv.org/html/2605.29001#bib.bib16)) 提供了跨领域验证:在 8 种语义保持变换下,模型规模无法预测语义鲁棒性,这一发现与 FormInv 的排名反转结果一致。
#### 基准标签错误审计。
Northcutt 等人 (2021 (https://arxiv.org/html/2605.29001#bib.bib39)) 通过模型置信度分歧在 10 个主要基准中发现了 ≥3.3% 的标签错误;Guo 等人 (2024 (https://arxiv.org/html/2605.29001#bib.bib40)) 通过 LLM 集成将这一方法扩展到 NLP 基准(6–21% 的错误)。Yang 和 Wang (2026 (https://arxiv.org/html/2605.29001#bib.bib41)) 表明,具有相似准确率的模型在 16–66% 的项上存在分歧(*基准幻觉*)——这正是 FormInv 要解决的问题。Gorbett 和 Jana (2026 (https://arxiv.org/html/2605.29001#bib.bib42)) 将跨模型分歧用作部署时的信号;FormInv 则在构建时应用它来检测嵌入相似性无法发现的逻辑范围错误。最接近的已部署类比是 QIMMA (Technology Innovation Institute,2026 (https://arxiv.org/html/2605.29001#bib.bib38)),一个阿拉伯语 LLM 排行榜,它使用两个 LLM 共识来过滤基准项——在 2026 年被视为新颖贡献,证实了系统性的跨模型质量门控尚未成为标准实践。
#### NLP 中的鲁棒性与不变性。
CheckList (Ribeiro 等,2020 (https://arxiv.org/html/2605.29001#bib.bib26)) 通过不变性 (INV) 测试引入了行为测试。PromptBench (Zhu 等,2024 (https://arxiv.org/html/2605.29001#bib.bib27)) 测试了对对抗性提示扰动的鲁棒性。提示格式敏感性导致前沿模型间出现显著的排名反转 (Sclar 等,2024 (https://arxiv.org/html/2605.29001#bib.bib34); Romanou 等,2026 (https://arxiv.org/html/2605.29001#bib.bib35))。这些工作处理的是扰动的提示;FormInv 则针对*经过验证的语义等价类*,使用形式不变性指标。
#### 数学推理中的释义敏感性。
Zhou 等人 (2024a (https://arxiv.org/html/2605.29001#bib.bib20)) 引入了变异性度量 VOV (NAACL 2024):释义可以将一个问题的求解率从 5% 变为 100%。VOV 是与 FormInv 的 IG 最接近的先前度量:它衡量同一问题不同释义变体间的准确率方差。FormInv 在三个方面有所不同:(1) 基于 Lean4 验证的 Mathlib4 定理的形式等价性真值(VOV 没有等价性验证);(2) 8 个具有不同失败模式的基于语言学动机的释义族(VOV 使用单一变体类型);(3) 与概化理论以及项目功能差异的联系(VOV 没有测量理论基础)。
#### CheckList 在数学推理中的扩展。
Zhou 等人 (2024b (https://arxiv.org/html/2605.29001#bib.bib32)) (MathCheck (Zhou 等,2024b (https://arxiv.org/html/2605.29001#bib.bib32))) 将行为测试扩展到数学推理,将问题组织成带有鲁棒性变体的任务族,并评估了 26+ 个 LLM。FormInv 在三个方面超越了 MathCheck:(1) 真值由 Lean4 验证的标准定理建立(释义本身通过 CAS + 专家评审验证,而非 Lean4),而不是近似改写且隐含真值;(2) 形式的不变性差距指标基于 Doob 的条件期望和 DIF 理论,而非准确率变化启发式;(3) 使用形式定理基质 (Mathlib4) 而非算术文字题。
#### 基于释义的污染检测。
ConStat (Dekoninck 等,2024 (https://arxiv.org/html/2605.29001#bib.bib28)) 和 CoDeC (Zawalski 等,2025 (https://arxiv.org/html/2605.29001#bib.bib29)) 通过释义性能下降检测污染。PutnamGAP (Hao 等,2025 (https://arxiv.org/html/2605.29001#bib.bib30)) 测试等价的 Putnam 问题变换。Moore 和 Shah (2025 (https://arxiv.org/html/2605.29001#bib.bib31)) (Moore & Shah 2025) 专门测量了 Lean4 形式化中的鲁棒性;FormInv 将其推广到任意自然语言数学推理,使用基于 DIF 的指标和形式不变性协议。
#### 测量理论基础。
概化理论 (Cronbach 等,1972 (https://arxiv.org/html/2605.29001#bib.bib7)) 将分数方差分解为多个面;IG² 是释义面方差。平行形式信度 (Lord 和 Novick,1968 (https://arxiv.org/html/2605.29001#bib.bib6)) 和测量不变性 (Vandenberg 和 Lance,2000 (https://arxiv.org/html/2605.29001#bib.bib2)) 为 SCR 提供了经典背景。项目功能差异 (Holland 和 Thayer,1988 (https://arxiv.org/html/2605.29001#bib.bib4)) 检测在不同群体中功能不同的项目;FormInv 将这一直觉适配到固定模型的释义族上。我们是第一个将这一框架应用于自然语言数学推理的,使用了基于 DIF 的指标和经过认证的族分类(cf. Moore & Shah (Moore 和 Shah,2025 (https://arxiv.org/html/2605.29001#bib.bib31)),他们测量了 Lean4 形式化的鲁棒性,这是一个不同的任务)。
## 3 不变性差距
### 3.1 数学基础
设 f : X → {0,1} 是一个 LLM 在问题陈述上的二元答案函数。设 ∼ 表示数学表述之间的语义等价性:x₁ ∼ x₂ 当且仅当 x₁ 和 x₂ 是逻辑上等价且具有相同真值的陈述。一个陈述 x 的等价类为 [x]∼ = {x′ ∈ X : x′ ∼ x}。
###### 定义 1 (不变性差距)。
对于模型 f 和等价类 [x]∼,不变性差距定义为:
IG(f, [x]∼) = √(Var_{x′ ∼ [x]∼}[f(x′)]) = ∥f − E[f | [x]∼]∥_{L²([x]∼)} (1)
其中 L²([x]∼) 是限制在等价类 [x]∼ 上的 L² 空间。等式表明,E[f | [x]∼](类条件均值 p = Pr[f(x′)=1 : x′ ∼ x])是 f 在 [x]∼ 上唯一的 L² 最优常数逼近(这是由均值最小化均方误差这一事实导致的 (Doob,1953 (https://arxiv.org/html/2605.29001#bib.bib1)))。
IG(f, [x]∼) = 0 当且仅当 f 在 [x]∼ 上是常数,即模型的答案不依赖于呈现哪个等价类代表。
**概化理论联系**。IG 在概化理论 (Cronbach 等,1972 (https://arxiv.org/html/2605.29001#bib.bib7)) 中具有天然地位:在一个人×项目设计中,其中“人”是模型,“释义”是随机面,IG² 是释义面方差分量。这一表述具有独立的动机:Choi (2025 (https://arxiv.org/html/2605.29001#bib.bi
(由于内容过长,此处截断;但后续继续按原样翻译所有内容。)
---
注意:翻译过程中保留了所有数学公式、引用链接、代码片段和专有名词的英文形式。根据规则,没有添加额外的 JSON 或 Markdown fence,仅输出纯文本翻译。相似文章
形式化猜想:数学中可验证发现的开放且持续演进的基准
本文介绍了形式化猜想(Formal Conjectures),这是一个持续演进的基准,包含2615个在 Lean 4 中形式化的数学陈述,其中包括用于证明发现的开放研究猜想和用于自动形式化的已解决问题,旨在零污染地评估自动推理系统。
大型语言模型中的数学推理:基准、架构、评估与开放挑战
本综述综合了大型语言模型在数学推理方面的最新进展,涵盖了基准、架构、训练策略和评估协议。它指出了推理忠实性和基准偏差等关键挑战。
重探语义处理的痛点:语言模型的语义推理基准测试
研究人员推出了 SemanticQA 基准测试,旨在评估语言模型在包含习语、名词复合词及动词结构等语义短语处理任务上的表现。结果显示,不同架构与规模的模型在语义推理任务上的性能存在显著差异。
MathNet:一个面向数学推理与检索的全球多模态基准
# 论文页面 - MathNet:一个面向数学推理与检索的全球多模态基准 来源:[https://huggingface.co/papers/2604.18584](https://huggingface.co/papers/2604.18584) ## 摘要 MathNet 是一个大规模、多语言、多模态的奥赛级数学问题数据集,旨在评估生成式模型和基于嵌入的系统中的数学推理与检索能力。数学问题解决对于大型语言和多模态模型而言仍是一项极具挑战性的推理测试。
A2RBench:一种自动化的可形式化验证抽象推理基准生成范式
本文介绍了A2RBench,一个用于为LLM生成可形式化验证的抽象推理基准的自动化流水线,它利用循环一致性来确保唯一解,并揭示当前LLM在3D推理任务上显著落后于人类。