揭示过度完备推理轨迹中最小核心的表征几何

arXiv cs.AI 论文

摘要

本文介绍了过度完备推理轨迹中'最小核心'的概念,表明平均可移除46%的步骤同时保留最终答案,并且最小核心改善了轨迹分离并降低了内在维度。

arXiv:2605.14358v1 公告类型: 新 摘要: 语言模型通常生成较长的思维链轨迹,但目前尚不清楚这些推理中有多少对于保留最终预测是必要的。我们通过过度完备的推理轨迹的视角来研究这一问题:生成的轨迹包含比支持模型答案所需更多的中间步骤。我们将最小核心定义为保留最终答案或预测分布的最小步骤子集,并引入了压缩比、冗余质量、步骤必要性和必要性集中度等指标。在涵盖算术、竞赛数学、专家科学推理和常识多跳问答的六个深思推理基准上,我们发现显著的过度完备性:平均而言,在贪婪最小核心提取下,46%的步骤可被移除,同时在86%的案例中保留了原始答案。我们还发现预测支持是集中的:平均而言,前三步占据了65%的测量必要性质量。除了压缩之外,最小核心揭示了更清晰的推理几何:与完整轨迹相比,它们将正确-错误轨迹分离提高了11个百分点,将估计的内在维度降低了34%,并且以85%的非对角答案保留率跨模型族转移。理论上,我们建立了最小充分子集的存在性、贪婪消除的局部不可约性保证,以及过度完备性和稀疏必要性的证明。这些结果表明,完整的推理轨迹通常冗长且过度完备,而最小核心则分离了语言模型预测背后的有效支持。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:23

# 揭示过度完备推理轨迹中最小核心的表征几何
来源:https://arxiv.org/abs/2605.14358
查看PDF(https://arxiv.org/pdf/2605.14358)

> 摘要:语言模型通常生成长链思维轨迹,但目前尚不清楚这些推理中有多少是保持最终预测所必需的。我们通过过度完备推理轨迹的视角来研究这一问题:生成轨迹包含的中间步骤数量超过支持模型答案所需的最小值。我们将最小核心定义为能保持最终答案或预测分布的最小子步骤集合,并引入压缩比、冗余质量、步骤必要性和必要性集中度等指标。在涵盖算术、竞赛数学、专家科学推理和常识多跳问答的六个审慎推理基准上,我们发现显著的过度完备性:在贪心最小核心提取下,平均46%的步骤可被移除,同时86%的情况下原始答案得以保持。我们还发现预测支撑高度集中:平均而言,前三个步骤占测量必要性质量的65%。除了压缩效果,最小核心还揭示了更清晰的推理几何结构:与完整轨迹相比,它们将正确/错误轨迹的分离度提升了11个百分点,将估计的内在维度降低了34%,并以85%的离对角答案保留率在不同模型族间迁移。理论上,我们证明了最小充分子集的存在性、贪心消除的局部不可还原性保证,以及过度完备性和稀疏必要性的认证。这些结果表明,完整的推理轨迹往往冗余且过度完备,而最小核心则分离出支撑语言模型预测的有效基础。

## 提交历史

作者:Sanjoy Chowdhury \[查看邮件(https://arxiv.org/show-email/dd24d0d4/2605.14358)\] **\[v1\]** 2026年5月14日星期四 04:35:45 UTC(558 KB)

相似文章

学习一致性表征:一种拓扑可解释性方法

arXiv cs.LG

本文介绍了一致性(coherence)这一几何约束,受大脑中网格细胞和头朝向细胞的启发。一致性确保特征响应数据流形上的几何连通区域,从而提升可解释性;作者提出了一个可微分的目标函数(Coh),并在合成数据、旋转MNIST和BERT词元嵌入上进行了验证。

从智能体轨迹中诱导推理原语

arXiv cs.AI

介绍推理原语诱导(Reasoning Primitive Induction)方法,该方法从成功的ReAct轨迹中挖掘,将重复出现的推理动作聚类为类型化的伪工具,在基准测试上比原始智能体高出数十个百分点。

监控内部独白:探针轨迹揭示推理动态

Hugging Face Daily Papers

本文介绍了一种通过分析探针轨迹(即概念概率在生成token上的演变)来监控大型推理模型推理过程的方法。该方法利用隐藏表示中的时间特征和信号处理特征,更好地预测未来模型行为,通过最大池化达到了高达95%的AUROC。

ReasonOps: 面向LLM推理轨迹的算子分割

arXiv cs.AI

ReasonOps 提出了一种无监督方法,用于对大型推理模型的思维链轨迹进行标注,识别出 7 个常出现的推理算子。该方法支持对 12 个模型和 8 个基准上的推理结构、模型识别和正确性预测进行分析。