RealMath-Eval:为何最先进的评判者难以应对真实人类推理

arXiv cs.AI 论文

摘要

RealMath-Eval是一个包含224份真实高中数学考试答题的基准测试,揭示了显著的“评估差距”:相较于由LLM生成的合成解决方案(MSE约1.17),最先进的LLM评判者在真实人类推理上的表现较差(MSE约2.96),原因在于人类错误模式具有更高的多样性和惊异度。

arXiv:2606.10254v1 公告类型:新\n摘要:虽然大语言模型(LLM)在\emph{解决}高中数学问题上已近乎完美,但它们\emph{评估}真实学生多样化推理过程的能力仍待深入研究。为弥补这一差距,我们提出了\textbf{RealMath-Eval},这是一个由224份真实学校考试答题组成的经过严格标注的基准。初步评估显示,即使是最先进的LLM评判者在面对此类任务时也表现不佳,与专家人工评分相比,均方误差高达约2.96。为了探究可能的原因,我们将其与对照设置进行了对比,在该设置中,同一评判者评估由LLM生成的合成解决方案。我们发现了一个显著的“评估差距”:评判者在合成文本上的准确性和一致性要高得多(MSE约1.17),但难以泛化到真实的学生推理。通过语义嵌入分析,我们发现合成错误存在一种“结构坍缩”,即落入可预测的低维线性子空间,而人类错误则形成了更多元的错误空间。此外,生成概率探测表明,人类推理涉及显著更高的信息论惊异度,表明学生推理转变对于当前模型而言更加分布外。最后,我们发现表面级的风格迁移无法弥合这一差距。我们的研究结果表明,当前严重依赖合成数据的LLM评估流程可能无法充分捕捉真实学生数学推理的多样性。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:13

# RealMath-Eval:为何 SOTA 评判者在真实人类推理中表现不佳

来源:https://arxiv.org/html/2606.10254

Kenan Xu,华东师范大学  
Yijia Lyu,纽约大学  
Wenhao Li,同济大学  
Jianlong Chen,通讯作者:[email protected],香港中文大学(深圳)  
Xiangfeng Wang,华东师范大学  

###### 摘要

尽管大型语言模型(LLM)在*求解*高中数学问题上已接近完美,但它们*评估*真实人类学生多样化推理过程的能力仍未得到充分检验。为填补这一空白,我们提出了 **RealMath-Eval**,一个包含 224 份来自高中的真实考试回答、并经过严格标注的基准。我们的初步评估显示,即使是当前最先进的 LLM 评判者在此任务上也表现困难,与人类专家评分的均方误差(∼2.96)很高。为探究一个可能的解释,我们将此表现与同一评判者在评估合成 LLM 生成解答时的表现进行了对比。我们发现了一个明显的“评估差距”:评判者在合成文本上(MSE ∼1.17)准确性和一致性显著更高,但难以泛化到真实的学生推理上。通过语义嵌入分析,我们发现合成错误经历了一种“结构性坍缩”,坍缩为可预测的低维线性子空间,而人类错误则形成了更多样的错误空间。此外,生成概率探测表明,人类推理涉及显著更高的信息论意外度(surprisal),表明学生推理转移对于当前模型而言更具分布外特性。最后,我们发现表面层面的风格迁移无法弥合这一差距。我们的发现表明,当前严重依赖合成数据的 LLM 评估流水线可能无法充分捕捉真实学生数学推理的多样性。

## 1 引言

大型语言模型(LLM)的快速发展带来了自动评估领域的范式转变。“LLM 即评判者”(LLM-as-a-Judge)已成为标准实践,即利用强模型来评估弱模型的质量[32 (https://arxiv.org/html/2606.10254#bib.bib1), 9 (https://arxiv.org/html/2606.10254#bib.bib2)]。这种方法隐含地假设,一个能够*求解*复杂问题的模型,天生就具备*评判*该问题解答的能力,无论该解答来自机器还是人类。

图 1:RealMath-Eval 与评估差距概览。该基准支持对真实学生推理与合成 LLM 解答进行受控比较,揭示了显著的性能差距,从而激发了本文后续的语义和 LL 分析。

当前“LLM 即评判者”的研究通常分为两类:成对排序(比较两个输出)和逐点评分(分配绝对质量分数)[12 (https://arxiv.org/html/2606.10254#bib.bib5)]。虽然成对排序广泛用于偏好对齐,但逐点评分对于需要校准判断的应用(如奖励建模和基于评分标准的评估)不可或缺。[12 (https://arxiv.org/html/2606.10254#bib.bib5), 23 (https://arxiv.org/html/2606.10254#bib.bib7), 15 (https://arxiv.org/html/2606.10254#bib.bib9)]。然而,现有的逐点评分基准主要关注合成数据——使用强模型来评估弱模型的输出[23 (https://arxiv.org/html/2606.10254#bib.bib7), 15 (https://arxiv.org/html/2606.10254#bib.bib9)]。这形成了一个闭环:评判者是在它们在统计上熟悉的文本分布上进行评估的。尽管教育 NLP 在自动作文评分(AES)中已广泛评估了真实的学生文本——从依赖浅层语言特征的传统系统[22 (https://arxiv.org/html/2606.10254#bib.bib3)]到近期的基于 LLM 的多特质评估器[11 (https://arxiv.org/html/2606.10254#bib.bib4)]——但这些方法主要评估写作质量和修辞连贯性。相比之下,对复杂数学推理的、基于评分标准的评估需要跟踪逐步推理、逻辑有效性和错误传播。因此,一个关键问题浮现:这些针对机器文本可预测模式优化的评判者,能否有效评估真实人类学生*多样化、嘈杂且通常特殊的推理*?这一能力对于 RLHF 中的可靠奖励信号和值得信赖的 AI 导师至关重要,但对于真实学生的数学推理仍缺乏检验。

为应对这一挑战,我们引入了 RealMath-Eval,一个由 224 份经专家标注的真实高中考试回答构成的基准。我们的初步实验揭示了一个令人担忧的现实:最先进的(SOTA)LLM 评判者在评分真实学生解答时表现困难,与人类真实标签的均方误差(∼2.96)很高。为探究这一失败,我们与一个由合成 LLM 解答组成的对照组进行了比较分析。这种比较揭示了明显的**评估差距**:同一评判者在评估合成文本时相当准确(MSE ∼1.17),这表明困难不仅源于数学复杂性,更源于人类和模型构建错误推理路径的方式差异。图 1 (https://arxiv.org/html/2606.10254#S1.F1) 展示了我们分析的概览,我们将主要**贡献**总结如下:

1.  1. **RealMath-Eval 基准**:一个来自真实高中考试的、经过严格标注的数据集,专门设计用于测试对多样化人类推理的评估能力。
2.  2. **评估差距的发现**:我们揭示了评判者在同一问题上的表现存在鲜明对比:SOTA 评判者在合成 LLM 推理上(MSE ∼1.17,失败率 12.8%)远比为人类推理(MSE ∼2.96,失败率 28.7%)可靠。这种 ∼2.5 倍的退化提供了观察到的评估不对称性的实证证据,我们称之为潜在的“群体内偏见”(In-group Bias):当前评估者似乎对合成文本分布的校准远好于对真实人类推理的校准。
3.  3. **失败机制:“晶体”与“云”**:据我们所知,我们首次对这一差距进行了分析性解释。语义嵌入分析表明,LLM 错误经历了一种“结构性坍缩”,坍缩为稳定的低维“晶体”,而人类错误则表现出高的类内散度,形成了无结构的“云”。此外,生成概率探测显示,人类推理涉及显著更高的信息论意外度(逻辑似然性 ≈ 0.11 vs. 0.33),表明存在分布不匹配,当前的评判流水线仅通过表面层面的提示可能无法完全解决。

## 2 相关工作

#### LLM 即评判者与逐点评分。
LLM 即评判者已成为自动评估的常见范式,特别是在成对偏好比较和逐点评分中[32 (https://arxiv.org/html/2606.10254#bib.bib1), 9 (https://arxiv.org/html/2606.10254#bib.bib2), 12 (https://arxiv.org/html/2606.10254#bib.bib5)]。我们的设置属于逐点评分分支,但与开放式质量评分不同,因为评判者必须在特定问题的数学评分标准下分配绝对分数。

#### 合成评判基准。
近期的评判者和奖励模型基准通常评估模型输出与其他模型输出的对比[23 (https://arxiv.org/html/2606.10254#bib.bib7), 15 (https://arxiv.org/html/2606.10254#bib.bib9)]。这些基准对于受控评估很有价值,但它们主要测试当代 LLM 熟悉的分布。RealMath-Eval 通过比较同一评判者在相同数学问题上的合成 LLM 解答和真实学生回答,补充了这一研究方向。

#### 教育 NLP 与数学推理评估。
教育 NLP 长期研究真实的学生文本,特别是在自动作文评分和多特质写作评估中[22 (https://arxiv.org/html/2606.10254#bib.bib3), 11 (https://arxiv.org/html/2606.10254#bib.bib4)]。数学推理评估需要不同形式的评估:评判者必须跟踪逐步推理,识别缺失的中间主张,应用部分信用评分标准,并区分有效的替代方法和无效的捷径。RealMath-Eval 专注于这种基于评分标准的数学场景,而非一般的写作质量。

## 3 RealMath-Eval 数据集

为系统评估 LLM 在人类数据上的评估能力,我们引入了 **RealMath-Eval**。

### 3.1 基准构建

该数据集由三批高中评估(2025-09-28、2025-10-17、2025-10-24)构建而成,涵盖高级主题,如三角函数、数列、导数和圆锥曲线。我们使用 OCR 和校正流水线处理手写回答,移除不可用的伪影,保留了一个包含 359 份可行候选的文件池。从此池中,我们为 14 个问题中的每一个均匀采样 16 份具有代表性的回答,最终得到包含 224 个样本的基准。详细的构建步骤见附录 A (https://arxiv.org/html/2606.10254#A1)。

每个基准样本包含原始问题陈述、学生的逐步解答以及参考答案。每个样本都附有专家分配的**真实分数**和**逐步评分标签**,从而支持整体评估和细粒度错误定位。该基准还涵盖了广泛的性能水平,包括 59 个低性能样本(26.34%)、97 个中性能样本(43.30%)和 68 个高性能样本(30.36%)。完整的数据发布格式见附录 N (https://arxiv.org/html/2606.10254#A14)。

### 3.2 对照组:合成 LLM 解答

为建立受控比较,我们构建了一个大小匹配的合成数据集,包含 224 份 LLM 生成的解答,每个真实学生样本对应一份。合成回答由一组多样的低、中、高端模型在不同温度下生成,以模拟学生能力水平的范围;完整的模型列表和温度设置见附录 B (https://arxiv.org/html/2606.10254#A2)。所有合成解答均在相同的“学生角色”提示下生成,然后由用于真实学生数据的相同专家人工流程进行标注,确保公平比较。

## 4 方法

我们提出了一个统一框架来评估和分析 LLM 评判数学推理的能力。我们的方法包括正式的任务定义、标准化的评判配置,以及一套旨在剖析“评估差距”的分析探针。

### 4.1 任务形式化

我们将评估任务形式化为一个逐点评分问题[12 (https://arxiv.org/html/2606.10254#bib.bib5)]。设 \(P\) 为一个数学问题,\(R\) 为带有逐步评分标准的参考解答,\(S\) 为学生的回答。评判模型 \(\mathcal{M}\) 以元组 \((P,R,S)\) 作为输入,并输出一个标量分数 \(\hat{y}\) 和推理理由 \(E\):
\[(\hat{y},E) = \mathcal{M}(P,R,S)
\]
目标是最小化预测分数 \(\hat{y}\) 与人类专家分配的真实分数 \(y_{gt}\) 之间的差异。我们使用均方误差 (MSE) 和细粒度**失败率** \(\text{FR}_{\delta}\) 来量化这种差异,后者定义为绝对分数偏差 \(|\hat{y} - y_{gt}| \geq \delta\) 的案例百分比。通过在多个阈值(\(\delta \in \{1,2,3,4,5\}\))上进行评估,我们捕捉评估错误的全面范围,从微小评分差异到灾难性误判。我们使用 \(\text{FR}_{2}\) 作为主要严重错误指标,因为在这些逐步评分标准中,两分偏差通常对应于过度奖励或遗漏一个实质性的推理里程碑,同时我们仍报告 \(\text{FR}_{1}\) 到 \(\text{FR}_{5}\) 以保持灵敏度。

### 4.2 评判配置与提示

我们使用最先进的 LLM(Gemini 3 Pro Preview、GPT-5.2、Qwen 3.5 Plus 和 DeepSeek-V3.2)作为评判者[8 (https://arxiv.org/html/2606.10254#bib.bib10), 20 (https://arxiv.org/html/2606.10254#bib.bib11), 21 (https://arxiv.org/html/2606.10254#bib.bib12), 13 (https://arxiv.org/html/2606.10254#bib.bib13)]。使用 MASLab[31 (https://arxiv.org/html/2606.10254#bib.bib22)],我们实现了**思维链** (Chain-of-Thought, CoT) [28 (https://arxiv.org/html/2606.10254#bib.bib23)] “先推理后评分”提示策略(附录 M (https://arxiv.org/html/2606.10254#A13)),其中模型首先根据评分标准分析学生的步骤,然后识别正确和不正确的推理,最后分配累计分数。

### 4.3 元评估协议

为定性理解*为何*评判者失败,我们对存在显著分歧(\(\Delta \geq 2\))的样本应用两阶段归因工作流:一个基于提示的元评估分类器生成初始标签,然后通过人工参与的专家审查进行修正(附录 M (https://arxiv.org/html/2606.10254#A13),附录 D (https://arxiv.org/html/2606.10254#A4))。修正后的案例分为四类:**错误严重性**、**过程规范**、**逻辑严谨性**和**洞察识别**。详细的类别定义见附录 G.1 (https://arxiv.org/html/2606.10254#A7.SS1)。这种分类使我们能够超越简单的错误率,诊断评判者与人类评分者之间反复出现的、基于评分标准的不匹配。

### 4.4 分析框架

为探究评估失败的潜在来源,我们在一个聚焦的数据子集上采用了两种互补的探针。我们首先从基准的逐步注释中提取粗粒度错误片段(人类 \(n=278\),合成 \(n=328\)),然后将这些片段分割成原子推理步骤用于微观层面分析。额外的预处理细节见附录 G (https://arxiv.org/html/2606.10254#A7)。

**(1) 语义结构探针(宏观层面)。**  
我们将每个错误片段 \(s_i \in \mathcal{S}_{err}\) 映射到嵌入向量 \(\mathbf{h}_i = E(s_i) \in \mathbb{R}^d\),使用 Qwen3-Embedding-8B[26 (https://arxiv.org/html/2606.10254#bib.bib24)]。为捕获局部和全局结构,我们从四个互补维度检查这些嵌入:**局部离散度**(平均 \(k\)-最近邻距离[14 (https://arxiv.org/html/2606.10254#bib.bib27)])、**聚类分离度**(HDBSCAN / GMM 与轮廓系数[16 (https://arxiv.org/html/2606.10254#bib.bib28), 5 (https://arxiv.org/html/2606.10254#bib.bib34)])、**全局空间模式**(成对距离热图)和**子空间维度**(PCA 解释方差)。这些统计量的详细定义见附录 G (https://arxiv.org/html/2606.10254#A7)。

**(2) 生成可预测性探针(微观层面)。**  
我们方法的一个关键组成部分是在微观层面计算可预测性,这捕获了特定人类推理步骤对因果语言模型而言有多“令人惊讶”[17 (https://arxiv.org/html/2606.10254#bib.bib30)]。

**逐步转移概率。** 我们利用因果语言模型的内部生成信号来评估推理路径的可预测性。给定一个被解析为有序原子步骤序列的错误片段 \(S = (s_0, s_1, \dots, s_{N-1})\),我们将步骤 \(k\) 处的上下文前缀定义为 \(C_k = \bigoplus_{i<k} s_i\)。

相似文章

MA-ProofBench:一种用于数学分析中定理证明的LLMs两级评估

arXiv cs.AI

MA-ProofBench是一个新的形式化基准,用于评估LLMs在数学分析中的定理证明能力,包含200个问题,分为两个难度级别。最佳模型GPT-5.5在Level I上仅达到16%,在Level II上为5%,突显了非形式化推理与形式化推理之间的显著差距。

LLM-as-Judge的几何学:为何LLM间共识并非人类对齐

arXiv cs.CL

本文从几何角度分析了为何作为裁判的LLM彼此之间高度一致,但与人类仅弱相关,发现LLM间共识在主观评分标准上反映的是坍塌子空间,而非真正的人类对齐。基于人类数据的后验校准提高了对齐,但即使经过校准的LLM也未达到人类的可靠性。