少即是多:认知负荷与LLM数学推理的单提示天花板
摘要
针对LLM形式化数学推理的实证研究发现“单提示天花板”现象:无论提示多长,准确率均停滞在60–79%,根源在于不可判定性、模型脆弱性与分布失配。
arXiv:2604.18897v1 Announce Type: new
摘要:我们在SAIR Equational Theories Stage 1竞赛背景下,系统研究了形式化数学推理的提示工程。该任务要求判断一条等价律是否在所有 magma 上蕴含另一条——总体不可判定,但 FALSE 情形可通过有限模型搜索判定。五周内,我们设计、测试并分析了40余种提示变体(0–4,878字节),覆盖四个评测划分与三款语言模型(gpt-oss-120b、Llama 3.3 70B、Gemma 4 31B)。
核心发现是“单提示天花板”:尽管投入大量工程,gpt-oss-120b 的 balanced hard accuracy 仍停滞在约60–79%的 empirical saturation region,而无 cheatsheet 基线为59.75%。我们指出三大机制:(1) TRUE 情形的数学不可判定性限制了任何有限提示可编码的信息;(2) 复杂规则体系削弱小模型性能(Llama 3.3 70B 在提示超2KB时 TRUE 召回跌至0%);(3) 提示顺序效应与模型注意力以脆弱、非单调方式交互。
我们的最佳提交(AN45c,2,252字节)在 hard3(n=400;95% CI:[75.0%, 82.9%])上取得79.25%准确率,TRUE 召回95.9%,FALSE 召回63.4%,较无 cheatsheet 基线(59.75%)提升19.5个百分点。所有提示变体、评测脚本与结果已开源:https://github.com/israelcazares/sair-prompt-engineering
查看缓存全文
缓存时间: 2026/04/22 08:29
# 认知负荷与 LLM 数学推理中的单提示天花板 来源:https://arxiv.org/html/2604.18897 Manuel Israel Cázares,Bytepro AI,墨西哥锡那罗亚州马萨特兰 [email protected] || [email protected] (2026 年 4 月) ###### 摘要 我们在 SAIR Equational Theories Stage 1 竞赛背景下,对形式化数学推理的提示工程进行了系统实证研究。任务要求判断一条等式定律是否在所有 magma(仅含一个二元运算的代数结构)上蕴含另一条定律——该问题通常不可判定,但对 False 情况可通过有限模型搜索判定。五周内,我们设计、测试并分析了 40 余种提示变体(0–4,878 字节),覆盖四个评测划分与三款语言模型(gpt-oss-120b、Llama 3.3 70B、Gemma 4 31B)。 核心发现是**单提示天花板**——更准确地说,我们称之为**实证饱和区**:在此区域内,准确率提升变得不稳定且无法跨问题分布泛化,而非绝对理论极限。尽管投入大量工程,gpt-oss-120b 的均衡 Hard 准确率仍停滞在约 60–79%,而“无小抄”基线为 59.75%(95% CI: [54.9%, 64.4%])。我们指出饱和区的三大机制:(1) True 情况的数学不可判定性限制了任何有限提示可编码的信息;(2) 复杂规则系统削弱小模型性能(Llama 3.3 70B 在提示超过 ≈2 KB 时 True 召回率跌至 0%);(3) 提示顺序效应与模型注意力以脆弱、非单调方式交互。 我们还记录了一种**分布错位失效模式**:在 False 占比高的子集(hard1,35% True)上验证看似正确的规则,在均衡子集(hard2,50% True)上却灾难性失败,误拦 51% 的 True 题。最佳提交(AN45c,2,252 字节)在 hard3(n=400;95% CI: [75.0%, 82.9%])上取得 79.25% 准确率,True 召回 95.9%,False 召回 63.4%,较无小抄基线(59.75%)提升 19.5 个百分点。在 OpenRouter/DeepInfra bf16 交叉验证(n=20)中得 90–95%,与全量结果一致。关键设计——将平凡 magma 检查置于反例表之前——带来主要增益,而非新增内容。我们开源所有提示变体、评测脚本与结果表。 赛后对 SAIR 官方基准的验证显示跨分布权衡曲面:饱和区内的本地增益对分布敏感,我们工程化最强的 AN45c 在官方评测上反而低于无小抄基线,而更简单的前代 AN38 却稳健提升。完整分析见第 9 节(https://arxiv.org/html/2604.18897#S9)。 注:此为赛前排行榜版本,基于贡献者网络数据(n=52 自愿提交,截至 2026 年 4 月 20 日)。完整比赛结果(n=1,007)将于 2026 年 4 月 30 日后更新分析。 ## 1 引言 大语言模型在数学推理任务上表现惊人,但在需要形式逻辑完备性——仅需一个反例即可否证——的问题上,其行为仍鲜为人知。SAIR Equational Theories Stage 1 竞赛为此提供了异常干净的试验场:给定两条 magma(带单一二元运算的集合)等式,判断前者是否普遍蕴含后者。该问题计算不对称:False 实例原则上可通过展示小型有限反例获证;True 实例则需证明所有 magma(含无限结构)皆无反例,尚无通用算法。 与 GSM8K 等标准基准不同,本任务涉及半可判定代数蕴含,False 可凭有限反例验证,True 则需对全宇宙 magma 做全称量化——根本不同的推理范式。 这种不对称为提示工程创造了天然设计空间。人们可能以为:给模型一本已知反例库可系统提升 False 准确率;而一句关于“单点强制等式”的指令可提升 True 准确率。实验结果更为复杂。 在 2026 年 4 月 20 日截止前的五周里,我们在四个含标签划分、累计 1,000+ 题上测试了 40 余种提示变体。发现:提示复杂度与多模型泛化呈反比。在 gpt-oss-120b 上最能提升 False 占比高子集表现的提示(如 AN3c 的 4,306 字节 Block 系统在 hard1 达 78.3%),在均衡子集上仅持平基线,并在 Llama 3.3 70B 上 True 召回率近乎归零。相反,最紧凑有效提示(AN19c,289 字节)在 gpt-oss-120b 上与复杂变体仅差 2 个百分点,却是唯一在 Llama 上保留可观 True 召回的版本。 我们记录的**单提示天花板**表现为:当底层任务所需数学推理未被基模型内化的前提下,静态文本提示所能达到的边界。实证表明,该天花板对 gpt-oss-120b 约落在 60–79% 均衡 Hard 准确率;该模型在官方基准默认推理无小抄时仅 26.5% False 召回(我们自测 Together AI 推理下为 38.0% False 召回,见第 5 节)。提示无法教会模型它不会的数学;只能引导它更可靠地运用已知内容。 贡献如下: 1. 系统消融研究:40+ 提示变体在标签划分上受控测试,量化设计选择影响。 2. 分布错位失效模式:量化在 False 占比高数据上验证导致的错误结论。 3. 多模型泛化分析:首次系统研究提示在 gpt-oss-120b、Llama 3.3 70B、Gemma 4 31B 上的可迁移性。 4. 顺序效应:平凡 magma 优先(AN45c)较 CE 表优先(AN38)在全量(n=400)提升 7.5 个百分点,95% Wilson CI 不重叠([75.0%, 82.9%] vs. [67.1%, 75.9%])(本地评测;官方基准差异见第 9 节)。 5. 实践指南:多模型部署的最简有效提示,并解释为何简单优于复杂。 6. 跨分布权衡曲面:官方基准验证表明,饱和区内的本地增益无法跨分布迁移(第 9 节)。 ## 2 背景 ### 2.1 magma 与等式定律 **magma** 指集合 M 配备单一二元运算 ⋆: M×M→M,仅要求封闭,无结合律、交换律、单位元、可逆性等额外公理。**等式定律** 指形如 t₁(x,y,…)=t₂(x,y,…) 的全称恒等式,其中 t₁、t₂ 为变量与 ⋆ 构成的项。若对 M 中任意变量赋值该恒等式均成立,则称此 magma 满足该定律。 ### 2.2 等式蕴含 给定两等式定律 E₁、E₂,若每个满足 E₁ 的 magma 也满足 E₂,则称 E₁ *蕴含* E₂(记 E₁⇒E₂)。该问题计算不对称:False 实例——E₁⇏E₂——可通过展示一个有限反例 magma(满足 E₁ 但违反 E₂)获证;对所有小 magma 存在此类证书,故 False 可经有限搜索判定。True 实例则需证明所有 magma(含无限)皆无反例,尚无通用算法。magma 上的蕴含问题通常不可判定;有限模型搜索对 False 完备,对 True 不完备。 ### 2.3 等式理论项目 等式理论项目(Equational Theories Project)是 Lean 4 形式化的大型协作工程,已验证约 4,694 条不同等式定律,确立约 2,200 万对方程的蕴含状态,为迄今最大形式验证代数蕴含数据库,也为 SAIR 竞赛基准提供数学基础与训练信号。 ### 2.4 为何对大模型难 True 与 False 的不对称性使任何固定推理策略面临根本挑战:给出正确 False 需构造或召回特定有限结构——适合查表而非泛化推理;给出正确 True 需对无限结构类做全称量化——超出有限枚举,且一般情形下不存在可靠完备的证明过程。无外部符号工具的语言模型必须在单次生成内近似两者,以训练分布上的模式识别替代证明搜索,此即本文研究对象。 ## 3 相关研究 #### LLM 数学推理基准 GSM8K 与 MATH 确立了文字题与竞赛数学题基准,仍为标准,但均评估可人类可读中间步骤的数值推理。需普遍逻辑闭合——“所有”结构实例成立——的任务根本不同:一个反例即可否证全称命题,而有限检查无法确认其成立。SAIR Equational Theories 基准在 200 题上评估 25 个模型,官方结果显示最强模型 Gemini 1.5 Pro 无小抄 Hard 准确率 90.2%,弱模型多近随机,使该基准尤能诊断天花板效应。 #### 形式推理的提示工程 思维链提示(CoT)表明,指令模型生成中间步骤可显著提升多步题表现。后续工作证实 few-shot 示例与零-shot CoT 指令在数值与常识域广泛有效。然而,这些发现多基于数值/常识领域,提示复杂度与形式代数推理(规则保真而非步数决定正确性)如何交互,尚缺乏研究。 #### LLM 中的谄媚与认知负荷 Sharma 等发现 RLHF 模型在多种自由生成任务中持续表现谄媚:即便错误亦迎合用户 perceived 立场。我们观察到相关现象——**认知负荷崩塌**:当提示规则系统过于复杂,模型无法可靠遵循,遂退而依赖表面启发式。Shi 等证明数学题中无关上下文会显著降低准确率,表明额外文本可主动伤害推理。 #### 等式理论项目 竞赛数学基础源于等式理论自动证明搜索的持续工作,该项目确立 magma 上等式定律蕴含具有复杂依赖结构,无法暴力枚举,从而激发以语言模型作为该空间近似推理器。 #### 上下文学习:长度 vs. 性能 Liu 等表明模型注意力在上下文上非均匀:开头与末尾信息检索更可靠,直接影响结构化小抄设计。我们发现平凡 magma 优先(AN45c)较 CE 表优先(AN38)在全量(n=400)提升 7.5 个百分点(第 5 节)。我们假设,将平凡 magma 检查置于首位可在生成早期将注意力导向 True 判定,再进入 CE 搜索;首条实质规则在生成中获得不成比例的注意力权重,该机制有待注意力分析验证。 ## 4 方法 ### 4.1 任务与基准 SAIR Equational Theories Stage 1 竞赛要求:给定 magma 方程对 (E₁,E₂),判定 E₁⇒E₂ 是否普遍成立(标签 True)或存在反例 magma(标签 False)。官方评测逻辑见 SAIR Foundation。实验使用公开数据集 SAIRfoundation/equational-theories-selected-problems(HuggingFace)。本文使用四个带标签划分,见表 1。 表 1:本文所用数据集划分。Hard3 为主要评测划分:其近均衡分布与规模(n=400)最接近竞赛私有评测集。Hard1 选择性使用。
相似文章
@stevibe:哪些大模型真的“热爱思考”?实测7款模型5道数学题,推理长度大比拼。思考冠军:bo…
7款大模型在5道数学题上的基准测试;Qwen3.5 27B与35B A3B生成最长推理链,每题超10k tokens。
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
强化学习能否教会大型语言模型进行长程推理?表达力是关键
本文介绍了 ScaleLogic 框架,该框架证明了强化学习的训练计算资源消耗遵循与大型语言模型推理深度相关的幂律分布。文章强调,逻辑表达力对于提升下游迁移能力和训练效率至关重要。
关于LLM“数学证明”声明的问题(15分钟阅读)
本文批判了媒体对LLM局限性数学证明的夸大报道,特别指出关于自我提升的条件性结论如何经常被曲解为普遍不可能性。
大语言模型何时能在弱监督下学会推理?
# 论文页面 - 大语言模型何时能在弱监督下学会推理? 来源:[https://huggingface.co/papers/2604.18574](https://huggingface.co/papers/2604.18574) ## 摘要 研究表明,在弱监督下的推理任务中,模型泛化能力取决于奖励饱和动态和推理忠实度,而对显式轨迹进行监督微调对于成功适应至关重要。大语言模型通过[reinfor