少即是多：认知负荷与LLM数学推理的单提示天花板

arXiv cs.CL 2026/04/22 04:00 论文

摘要

针对LLM形式化数学推理的实证研究发现“单提示天花板”现象：无论提示多长，准确率均停滞在60–79%，根源在于不可判定性、模型脆弱性与分布失配。

arXiv:2604.18897v1 Announce Type: new 摘要：我们在SAIR Equational Theories Stage 1竞赛背景下，系统研究了形式化数学推理的提示工程。该任务要求判断一条等价律是否在所有 magma 上蕴含另一条——总体不可判定，但 FALSE 情形可通过有限模型搜索判定。五周内，我们设计、测试并分析了40余种提示变体（0–4,878字节），覆盖四个评测划分与三款语言模型（gpt-oss-120b、Llama 3.3 70B、Gemma 4 31B）。核心发现是“单提示天花板”：尽管投入大量工程，gpt-oss-120b 的 balanced hard accuracy 仍停滞在约60–79%的 empirical saturation region，而无 cheatsheet 基线为59.75%。我们指出三大机制：(1) TRUE 情形的数学不可判定性限制了任何有限提示可编码的信息；(2) 复杂规则体系削弱小模型性能（Llama 3.3 70B 在提示超2KB时 TRUE 召回跌至0%）；(3) 提示顺序效应与模型注意力以脆弱、非单调方式交互。我们的最佳提交（AN45c，2,252字节）在 hard3（n=400；95% CI：[75.0%, 82.9%]）上取得79.25%准确率，TRUE 召回95.9%，FALSE 召回63.4%，较无 cheatsheet 基线（59.75%）提升19.5个百分点。所有提示变体、评测脚本与结果已开源：https://github.com/israelcazares/sair-prompt-engineering

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 08:29

# 认知负荷与 LLM 数学推理中的单提示天花板  
来源：https://arxiv.org/html/2604.18897  
Manuel Israel Cázares，Bytepro AI，墨西哥锡那罗亚州马萨特兰  
[email protected] || [email protected]  

（2026 年 4 月）

###### 摘要

我们在 SAIR Equational Theories Stage 1 竞赛背景下，对形式化数学推理的提示工程进行了系统实证研究。任务要求判断一条等式定律是否在所有 magma（仅含一个二元运算的代数结构）上蕴含另一条定律——该问题通常不可判定，但对 False 情况可通过有限模型搜索判定。五周内，我们设计、测试并分析了 40 余种提示变体（0–4,878 字节），覆盖四个评测划分与三款语言模型（gpt-oss-120b、Llama 3.3 70B、Gemma 4 31B）。

核心发现是**单提示天花板**——更准确地说，我们称之为**实证饱和区**：在此区域内，准确率提升变得不稳定且无法跨问题分布泛化，而非绝对理论极限。尽管投入大量工程，gpt-oss-120b 的均衡 Hard 准确率仍停滞在约 60–79%，而“无小抄”基线为 59.75%（95% CI: [54.9%, 64.4%]）。我们指出饱和区的三大机制：(1) True 情况的数学不可判定性限制了任何有限提示可编码的信息；(2) 复杂规则系统削弱小模型性能（Llama 3.3 70B 在提示超过 ≈2 KB 时 True 召回率跌至 0%）；(3) 提示顺序效应与模型注意力以脆弱、非单调方式交互。

我们还记录了一种**分布错位失效模式**：在 False 占比高的子集（hard1，35% True）上验证看似正确的规则，在均衡子集（hard2，50% True）上却灾难性失败，误拦 51% 的 True 题。最佳提交（AN45c，2,252 字节）在 hard3（n=400；95% CI: [75.0%, 82.9%]）上取得 79.25% 准确率，True 召回 95.9%，False 召回 63.4%，较无小抄基线（59.75%）提升 19.5 个百分点。在 OpenRouter/DeepInfra bf16 交叉验证（n=20）中得 90–95%，与全量结果一致。关键设计——将平凡 magma 检查置于反例表之前——带来主要增益，而非新增内容。我们开源所有提示变体、评测脚本与结果表。

赛后对 SAIR 官方基准的验证显示跨分布权衡曲面：饱和区内的本地增益对分布敏感，我们工程化最强的 AN45c 在官方评测上反而低于无小抄基线，而更简单的前代 AN38 却稳健提升。完整分析见第 9 节（https://arxiv.org/html/2604.18897#S9）。

注：此为赛前排行榜版本，基于贡献者网络数据（n=52 自愿提交，截至 2026 年 4 月 20 日）。完整比赛结果（n=1,007）将于 2026 年 4 月 30 日后更新分析。

## 1 引言

大语言模型在数学推理任务上表现惊人，但在需要形式逻辑完备性——仅需一个反例即可否证——的问题上，其行为仍鲜为人知。SAIR Equational Theories Stage 1 竞赛为此提供了异常干净的试验场：给定两条 magma（带单一二元运算的集合）等式，判断前者是否普遍蕴含后者。该问题计算不对称：False 实例原则上可通过展示小型有限反例获证；True 实例则需证明所有 magma（含无限结构）皆无反例，尚无通用算法。

与 GSM8K 等标准基准不同，本任务涉及半可判定代数蕴含，False 可凭有限反例验证，True 则需对全宇宙 magma 做全称量化——根本不同的推理范式。

这种不对称为提示工程创造了天然设计空间。人们可能以为：给模型一本已知反例库可系统提升 False 准确率；而一句关于“单点强制等式”的指令可提升 True 准确率。实验结果更为复杂。

在 2026 年 4 月 20 日截止前的五周里，我们在四个含标签划分、累计 1,000+ 题上测试了 40 余种提示变体。发现：提示复杂度与多模型泛化呈反比。在 gpt-oss-120b 上最能提升 False 占比高子集表现的提示（如 AN3c 的 4,306 字节 Block 系统在 hard1 达 78.3%），在均衡子集上仅持平基线，并在 Llama 3.3 70B 上 True 召回率近乎归零。相反，最紧凑有效提示（AN19c，289 字节）在 gpt-oss-120b 上与复杂变体仅差 2 个百分点，却是唯一在 Llama 上保留可观 True 召回的版本。

我们记录的**单提示天花板**表现为：当底层任务所需数学推理未被基模型内化的前提下，静态文本提示所能达到的边界。实证表明，该天花板对 gpt-oss-120b 约落在 60–79% 均衡 Hard 准确率；该模型在官方基准默认推理无小抄时仅 26.5% False 召回（我们自测 Together AI 推理下为 38.0% False 召回，见第 5 节）。提示无法教会模型它不会的数学；只能引导它更可靠地运用已知内容。

贡献如下：

1. 系统消融研究：40+ 提示变体在标签划分上受控测试，量化设计选择影响。  
2. 分布错位失效模式：量化在 False 占比高数据上验证导致的错误结论。  
3. 多模型泛化分析：首次系统研究提示在 gpt-oss-120b、Llama 3.3 70B、Gemma 4 31B 上的可迁移性。  
4. 顺序效应：平凡 magma 优先（AN45c）较 CE 表优先（AN38）在全量（n=400）提升 7.5 个百分点，95% Wilson CI 不重叠（[75.0%, 82.9%] vs. [67.1%, 75.9%]）（本地评测；官方基准差异见第 9 节）。  
5. 实践指南：多模型部署的最简有效提示，并解释为何简单优于复杂。  
6. 跨分布权衡曲面：官方基准验证表明，饱和区内的本地增益无法跨分布迁移（第 9 节）。

## 2 背景

### 2.1 magma 与等式定律

**magma** 指集合 M 配备单一二元运算 ⋆: M×M→M，仅要求封闭，无结合律、交换律、单位元、可逆性等额外公理。**等式定律** 指形如 t₁(x,y,…)=t₂(x,y,…) 的全称恒等式，其中 t₁、t₂ 为变量与 ⋆ 构成的项。若对 M 中任意变量赋值该恒等式均成立，则称此 magma 满足该定律。

### 2.2 等式蕴含

给定两等式定律 E₁、E₂，若每个满足 E₁ 的 magma 也满足 E₂，则称 E₁ *蕴含* E₂（记 E₁⇒E₂）。该问题计算不对称：False 实例——E₁⇏E₂——可通过展示一个有限反例 magma（满足 E₁ 但违反 E₂）获证；对所有小 magma 存在此类证书，故 False 可经有限搜索判定。True 实例则需证明所有 magma（含无限）皆无反例，尚无通用算法。magma 上的蕴含问题通常不可判定；有限模型搜索对 False 完备，对 True 不完备。

### 2.3 等式理论项目

等式理论项目（Equational Theories Project）是 Lean 4 形式化的大型协作工程，已验证约 4,694 条不同等式定律，确立约 2,200 万对方程的蕴含状态，为迄今最大形式验证代数蕴含数据库，也为 SAIR 竞赛基准提供数学基础与训练信号。

### 2.4 为何对大模型难

True 与 False 的不对称性使任何固定推理策略面临根本挑战：给出正确 False 需构造或召回特定有限结构——适合查表而非泛化推理；给出正确 True 需对无限结构类做全称量化——超出有限枚举，且一般情形下不存在可靠完备的证明过程。无外部符号工具的语言模型必须在单次生成内近似两者，以训练分布上的模式识别替代证明搜索，此即本文研究对象。

## 3 相关研究

#### LLM 数学推理基准

GSM8K 与 MATH 确立了文字题与竞赛数学题基准，仍为标准，但均评估可人类可读中间步骤的数值推理。需普遍逻辑闭合——“所有”结构实例成立——的任务根本不同：一个反例即可否证全称命题，而有限检查无法确认其成立。SAIR Equational Theories 基准在 200 题上评估 25 个模型，官方结果显示最强模型 Gemini 1.5 Pro 无小抄 Hard 准确率 90.2%，弱模型多近随机，使该基准尤能诊断天花板效应。

#### 形式推理的提示工程

思维链提示（CoT）表明，指令模型生成中间步骤可显著提升多步题表现。后续工作证实 few-shot 示例与零-shot CoT 指令在数值与常识域广泛有效。然而，这些发现多基于数值/常识领域，提示复杂度与形式代数推理（规则保真而非步数决定正确性）如何交互，尚缺乏研究。

#### LLM 中的谄媚与认知负荷

Sharma 等发现 RLHF 模型在多种自由生成任务中持续表现谄媚：即便错误亦迎合用户 perceived 立场。我们观察到相关现象——**认知负荷崩塌**：当提示规则系统过于复杂，模型无法可靠遵循，遂退而依赖表面启发式。Shi 等证明数学题中无关上下文会显著降低准确率，表明额外文本可主动伤害推理。

#### 等式理论项目

竞赛数学基础源于等式理论自动证明搜索的持续工作，该项目确立 magma 上等式定律蕴含具有复杂依赖结构，无法暴力枚举，从而激发以语言模型作为该空间近似推理器。

#### 上下文学习：长度 vs. 性能

Liu 等表明模型注意力在上下文上非均匀：开头与末尾信息检索更可靠，直接影响结构化小抄设计。我们发现平凡 magma 优先（AN45c）较 CE 表优先（AN38）在全量（n=400）提升 7.5 个百分点（第 5 节）。我们假设，将平凡 magma 检查置于首位可在生成早期将注意力导向 True 判定，再进入 CE 搜索；首条实质规则在生成中获得不成比例的注意力权重，该机制有待注意力分析验证。

## 4 方法

### 4.1 任务与基准

SAIR Equational Theories Stage 1 竞赛要求：给定 magma 方程对 (E₁,E₂)，判定 E₁⇒E₂ 是否普遍成立（标签 True）或存在反例 magma（标签 False）。官方评测逻辑见 SAIR Foundation。实验使用公开数据集 SAIRfoundation/equational-theories-selected-problems（HuggingFace）。本文使用四个带标签划分，见表 1。

表 1：本文所用数据集划分。Hard3 为主要评测划分：其近均衡分布与规模（n=400）最接近竞赛私有评测集。Hard1 选择性使用。

少即是多：认知负荷与LLM数学推理的单提示天花板

相似文章

@stevibe：哪些大模型真的“热爱思考”？实测7款模型5道数学题，推理长度大比拼。思考冠军：bo…

揭示大语言模型中的数学推理：内部机制的方法学研究

强化学习能否教会大型语言模型进行长程推理？表达力是关键

关于LLM“数学证明”声明的问题（15分钟阅读）

大语言模型何时能在弱监督下学会推理？

提交意见反馈