LinAlg-Bench:揭示大语言模型数学推理中结构性失败模式的诊断性基准
摘要
介绍了LinAlg-Bench,这是一个诊断性基准,用于评估10个前沿大语言模型在矩阵维度上的结构化线性代数计算,揭示了大语言模型的数学失败在结构上受到约束,并在4x4规模下从执行错误过渡到计算放弃。
arXiv:2605.16675v1 公告类型:新
摘要:我们提出了LinAlg-Bench,这是一个诊断性基准,用于评估10个前沿大语言模型在3x3、4x4和5x5矩阵的严格维度梯度上的结构化线性代数计算。涵盖9种任务类型和660个SymPy验证的问题,该基准全面评估了6,600个模型输出。除了二元准确性之外,LinAlg-Bench引入了一个三阶段自动法医流水线,将1,156个失败分类为十个主要错误标签及其细粒度子类型,揭示了大语言模型的数学失败并非随机,而是在结构上受到算法类型和矩阵维度的约束。我们的核心发现是4x4规模处的一个明显行为阈值:在此之下,模型因执行错误而失败——符号追踪失败、算术漂移和奇偶错误;在此之上,失败转变为计算放弃,模型通过工具角色扮演、约束一致的虚构和结构化幻觉来编造响应,而不是尝试计算。这种从编造到放弃的转变在所有模型层级和架构中几乎普遍存在,表明这是一个工作记忆限制而非知识差距,这一点得到了三种规模涌现错误类型的支持,这些错误在3x3上不存在,但在4x4和5x5上出现。我们进一步表明,解决策略的僵化是5x5行列式准确性的近乎完美预测因子,文档约束感知的虚构作为一种新型结构化幻觉失败模式,并公开了所有数据、模型输出、错误标签和评判流水线。
查看缓存全文
缓存时间: 2026/05/19 06:34
# LinAlg-Bench: 揭示大语言模型数学推理结构性故障模式的法医基准 来源:https://arxiv.org/html/2605.16675 Shradha Agarwal Deepak Rajbhar Tariq J\. 核工程与计算机科学系 密苏里科技大学,罗拉,密苏里州 sabrc@mst\.edu ###### 摘要 我们提出了LinAlg-Bench,这是一个诊断性基准,用于评估10个前沿大语言模型在结构化线性代数计算上的表现,覆盖严格的维度梯度:3×3、4×4和5×5矩阵。基准涵盖9种任务类型和660个经过SymPy验证的问题,对6,600个模型输出进行了全面评估。除了二元准确率之外,LinAlg-Bench还引入了一个三阶段自动化法医流水线,将1,156个失败分类为十个主要错误标签及其细粒度子类型,揭示了大语言模型的数学失败并非随机,而是受算法类型和矩阵维度的结构性约束。我们的核心发现是:在4×4尺度上存在一个尖锐的行为阈值——低于该阈值时,模型因执行错误(符号跟踪失败、算术漂移、奇偶校验错误)而失败;高于该阈值时,失败转变为计算放弃,模型通过工具角色扮演、约束一致虚构和结构化幻觉来编造响应,而不是尝试进行计算。这种“虚构到放弃”的转变在几乎所有模型层级和架构中普遍存在,表明问题在于工作记忆限制而非知识差距。这一结论得到了三种规模涌现错误类型的支持——这些错误类型在3×3上不存在,但在4×4和5×5上出现。我们还进一步证明,解题策略的僵化是5×5行列式准确率的近乎完美预测指标,记录了“约束感知虚构”作为一种新的结构化幻觉失败模式,并公开发布了所有数据、模型输出、错误标签和评判流水线。 ## 1 引言 前沿大语言模型是在进行数学推理,还是仅仅在近似数学话语的表面结构?当前关于LLM数学失败的主流解释本质上是统计性的——模型之所以失败,是因为它们见过的训练样本不够多,或者因为问题超出了某个通用能力阈值。本文提出了一个更强、更具结构性的解释:在递归计算负载下,LLM的失败不是随机的,而是遵循由算法族和矩阵维度决定的可预测模式,并且在可测量的复杂度阈值处,会从执行失败急剧转变为计算放弃。 线性代数提供了一个理想的测试平台,因为其运算具有算法精确性,能在不改变底层任务的前提下自然地跨矩阵维度缩放,并且可以分解为一个认知层次结构,其中每个层次正好增加了下一层次所没有的一种计算需求:矩阵读取、并行算术、顺序状态跟踪、递归符号管理,以及基于先前层次构建的组合运算。如果一个模型无法计算5×5行列式,不能将失败归因于不熟悉的数学——其算法与它正确计算3×3行列式时完全相同。在3×3尺度上,十个模型中有九个达到了完美或近乎完美的行列式准确率。在5×5尺度上,只有三个模型的行列式准确率超过50%,而特征值准确率对所有模型都骤降至接近零。这种模式——知识保留、执行崩溃——是工作记忆限制而非知识缺陷的典型特征。 失败模式也发生了根本性变化:在3×3尺度上,模型尝试计算并在计算过程中失败;在5×5尺度上,模型在尝试计算之前就放弃了计算,通过满足表面数学约束但本质上错误的结构化幻觉来编造响应。这种“虚构到放弃”的阈值,通过对6,600个全面评估的输出进行记录,是本文的核心实证贡献。模型根据跨越该阈值的维度边界明确分为三个层级:第3层模型在递归层面崩溃,第2层部分抵御递归但在组合层面崩溃,第1层维持递归但5×5特征值准确率趋近于零。一项针对性的消融研究进一步表明,强制执行算法上高效的策略并不能恢复准确率,从而确定瓶颈存在于自回归执行深度层面,而非方法选择层面。 LinAlg-Bench贡献如下:包含9个任务和3种矩阵维度共660个SymPy验证的问题,所有6,600个输出均得到全面评估;一个三阶段法医流水线,将1,156个失败分类为十个错误标签,与593个人工标注标签进行验证;将“虚构到放弃”行为阈值作为一个新颖、可证伪的实证发现;以及将约束感知虚构作为一种结构上独特的幻觉失败模式。所有数据、模型输出、错误标签和评判流水线均已公开发布。 ## 2 相关工作 数学推理评估已经从算术应用题(Cobbe等人,2021)发展到竞赛级挑战(Hendrycks等人,2021)、统一多领域评估(Mishra等人,2022)、符号数学(Lample和Charton,2020)以及多级理解(Liu等人,2024)。这些基准建立了难度梯度,但只测量最终答案准确率——在GSM8K上失败的模型和在5×5行列式上失败的模型被同等对待,尽管它们失败的根本原因截然不同。LinAlg-Bench通过保持算法固定、仅缩放矩阵维度来弥补这一空白,将计算深度与数学知识隔离开来——这是一种在难度和新颖性混杂的基准中无法实现的设计。这使我们能够进行受控测试,考察失败模式(而不仅仅是失败率)是否会随着任务复杂度而变化。 Transformer模型通过浅层模式匹配而非真正推理来解决多步组合任务(Dziri等人,2023),不能可靠地自我纠正算术错误(Huang等人,2023),并且主要通过事实错误定位(Maynez等人,2020)或过度自信生成(Kadavath等人,2022)来产生虚构。LinAlg-Bench揭示了一种结构上独特的失败模式——约束感知虚构:在计算过载下,模型编造数学上看似合理的响应——45%的虚构中特征值之和匹配矩阵的迹,85%的虚构(n=20个无根据猜测案例)中量级遵守Frobenius范数边界。一个只评估必要条件的基准会系统性地将这些虚构错误地分类为正确。第5.3节中记录的工具角色扮演崩溃(模型模拟调用其无法访问的外部工具)代表了另一种此前未记录的结构化幻觉机制。 机械可解释性文献已经开发出在Transformer架构内定位计算的工具(Vig,2019;Meng等人,2022;Conmy等人,2023)。LinAlg-Bench在行为层面做出贡献:法医分类法为未来的机械工作生成了可检验的假设——符号跟踪失败预测了后期层奇偶校验电路的参与,而完全崩溃预测了这些电路的抑制而非破坏。完整的机械验证留待后续工作。 ## 3 基准设计 LinAlg-Bench将9个线性代数任务组织成五个认知层次,基于每个操作对语言模型处理流水线施加的计算需求。这个分类法不是难度排名,而是一个因果分解:每个层次正好增加了下一层次所没有的一种计算需求(附录B)。关键边界位于“顺序”和“递归”层次之间:行列式计算要求在嵌套的余子式展开中同时维护层次化的奇偶校验状态,而秩和零化度只需要独立的行操作。5×5特征值是对此的进一步刻意压力测试——并非标准能力测量——需要一个完整的5×5行列式,随后进行五次多项式求根。 表 3.1:LinAlg-Bench分类法的五个认知层次。每个层次正好增加了下一层次所没有的一种计算需求。关键边界位于“顺序”和“递归”层次之间:行操作是独立的,而余子式展开要求同时在嵌套子矩阵展开中维护层次化的奇偶校验状态。 该基准包含660个整数元素问题(每个维度220个;每个模型行列式50个,特征值30个,其余20个),其真实值已通过SymPy符号计算(Meurer等人,2017)验证。行列式和特征值分配了更大的样本量(分别为50和30个问题),因为它们是主要研究的递归和组合任务;其余七个子类别使用n=20,足以在读取、算术和顺序层次上建立天花板和地板效应。十个覆盖推理优化、混合专家和标准指令微调架构的前沿模型在温度0下通过API进行零样本评估;完整的模型细节见附录A.4。代码执行和外部工具被禁用——这是有意设计的合成压力测试,测试在不断增加深度下无辅助递归执行的能力,而非对工具使用能力的实际评估。格式敏感性在4×4和5×5尺度上,针对三种输入表示(LaTeX、表格、列表)在九个模型上进行了评估;格式分析针对非推理架构,其中解析负载与计算深度相互作用。 ## 4 结果 读取和算术层次任务——迹、转置、矩阵-向量、乘法、矩阵幂——在所有三个维度上基本保持平稳,证实了基本的矩阵理解和并行算术在任何尺度上都不会施加有意义负载。顺序任务(秩、零化度)显示出逐渐的单调下降,与高斯消元链长度的增加一致。断崖完全集中在递归和组合层次上。完整的按模型、按子类别准确率(包括秩、零化度、迹和转置的细分)见附录C(表C.1–C.3)。 请参考图注 图 4.1:递归层次(行列式,左)和组合层次(特征值,右)的准确率轨迹(跨矩阵维度),按层级分组。线条显示层级平均准确率;阴影带显示每个层级内的最小-最大范围。第1层(蓝色):OpenAI-o1、Gemini-3.0-Pro、DeepSeek-V3、Qwen3-235B。第2层(绿色):GPT-5.2、Mistral-Large。第3层(红色):Claude-4.5-Sonnet、Qwen2.5-72B、Llama-3.3-70B、GPT-4o。所有比例均为来自6,600个全面评估输出的确切计数(每个维度2,200个;每个模型220个×10个模型)。 行列式任务承载了断崖信号。在3×3尺度上,所有模型都达到近乎完美的准确率。在4×4尺度上,断崖开始显现,低层级模型首次出现结构性崩溃。决定性断裂发生在5×5尺度:4×4到5×5行列式准确率出现32个百分点的阶跃不连续性——远超顺序层次的渐进下降——证明了瓶颈是递归状态跟踪,而非一般难度缩放。所有模型的特征值准确率在5×5尺度上骤降至接近零,这与将其设计为最大递归负载下的有意识压力测试(而非标准能力测量)相符。 模型根据其5×5行列式边界分为三个层级。第1层(OpenAI-o1、Gemini-3.0-Pro、Qwen3-235B、DeepSeek-V3)保持≥74%的准确率。第2层(GPT-5.2、Mistral-Large)降至36–54%。第3层(Claude-4.5-Sonnet、Qwen2.5-72B、Llama-3.3-70B、GPT-4o)崩溃至0–12%。关键的是,所有三个层级在5×5尺度上的特征值准确率都趋近于零——递归和组合层次代表了两个不同的失败阈值,而非一个连续统。组合层次的这种普遍崩溃为组合性差距(Press等人,2022)提供了鲜明的实证证据,即模型尽管掌握了底层子任务,但无法完成复合任务。 格式敏感性在4×4尺度上可忽略,但在5×5尺度上显现。这种效应区分了解析限制与计算限制:虽然算术任务(例如矩阵-向量)在标准LaTeX表示法下保持近乎完美的准确率,但将输入改为表格或列表格式会引入人为的解析失败——GPT-4o在5×5尺度下非LaTeX格式的准确率降至50–54%,Claude-4.5-Sonnet降至59–61%,而在LaTeX格式下分别为63%和66%。然而,在递归层次,格式偏好出现分歧,完全崩溃的模型无论采用何种表示法都会失败——证实了行列式崩溃是一个基本的工作记忆瓶颈,而非解析伪影。完整的格式敏感性数据见附录D。 ## 5 法医错误分析 ### 5.1 分类方法 法医错误分类应用于所有1,156个错误响应(3×3尺度100个,4×4尺度394个,5×5尺度662个),遵循第一错误原则:标记计算偏离真实值的最早步骤,而非最终可观察到的症状。分类法包含十个主要标签,适用于所有九个子类别——执行错误(sign_error、arithmetic、carry_down_error、memory_loss)、结构性错误(hallucination、method_fail)以及伪影(input_transcription、generation_truncation、formatting_mismatch、other_unmapped),定义于表5.1——外加四个特征值特定扩展(generation_loop、algebraic_precedence、false_verification、variable_entanglement),这些扩展仅在特征多项式的展开和求根过程中出现,定义于附录E的表E.2。第5节中的所有分布分析均使用十个主要标签;特征值扩展报告于附录H。 表 5.1:LinAlg-Bench法医分类法的十个主要错误标签,按族分组。分类遵循第一错误原则:标记计算偏离真实值的最早步骤。在语义判断之前执行两个提示级规则:量级规则(||wrong|| == ||correct|| → sign_error)和截断预检查(无最终答案 → generation_truncation)。 两条规则被强制执行:
相似文章
ChaosBench-Logic v2:大规模评估LLM在动态系统上的逻辑推理能力
ChaosBench-Logic v2是一个包含165个动态系统共40,886个问题的大规模基准测试,用于评估LLM的逻辑推理能力,结果显示即使在最前沿的模型中,在状态转变推理上也接近随机表现,并存在系统性失败模式。
LLMEval-Logic:一个经过求解器验证的、带有对抗性加固的大语言模型逻辑推理中文基准
LLMEval-Logic 是一个新的中文基准,专门评估大语言模型的逻辑推理能力,具有求解器验证的答案和对抗性加固。该基准揭示了当前模型的显著差距,最佳模型在困难项目上仅达到37.5%的准确率。
A2RBench:一种自动化的可形式化验证抽象推理基准生成范式
本文介绍了A2RBench,一个用于为LLM生成可形式化验证的抽象推理基准的自动化流水线,它利用循环一致性来确保唯一解,并揭示当前LLM在3D推理任务上显著落后于人类。
GTBench:一个基于课程体系的图论数学研究助手大语言模型评估基准
论文介绍了GTBench,这是一个基于课程体系的基准,用于评估大语言模型在图论中作为数学研究助手的能力,包含63个问题,分为三个难度级别。它评估了五个前沿模型,发现性能随难度增加而下降,其中GPT-5在基础问题上近乎完美,但在研究生级别的证明上仅达到82%。
长上下文LLM中的位置失败:推理基准测试的盲点
本论文识别出长上下文LLM推理基准测试中的一个盲点:它们未能控制任务在上下文中的位置,导致位置失败未被检测到。作者提出上下文旋转评估(CRE)来系统地改变任务位置、填充内容和上下文长度,揭示出当推理任务放置在长上下文中时,某些模型的准确率会严重下降。