揭示过度完备推理轨迹中最小核心的表征几何

arXiv cs.AI 2026/05/15 04:00 论文

摘要

本文介绍了过度完备推理轨迹中'最小核心'的概念，表明平均可移除46%的步骤同时保留最终答案，并且最小核心改善了轨迹分离并降低了内在维度。

arXiv:2605.14358v1 公告类型: 新摘要: 语言模型通常生成较长的思维链轨迹，但目前尚不清楚这些推理中有多少对于保留最终预测是必要的。我们通过过度完备的推理轨迹的视角来研究这一问题：生成的轨迹包含比支持模型答案所需更多的中间步骤。我们将最小核心定义为保留最终答案或预测分布的最小步骤子集，并引入了压缩比、冗余质量、步骤必要性和必要性集中度等指标。在涵盖算术、竞赛数学、专家科学推理和常识多跳问答的六个深思推理基准上，我们发现显著的过度完备性：平均而言，在贪婪最小核心提取下，46%的步骤可被移除，同时在86%的案例中保留了原始答案。我们还发现预测支持是集中的：平均而言，前三步占据了65%的测量必要性质量。除了压缩之外，最小核心揭示了更清晰的推理几何：与完整轨迹相比，它们将正确-错误轨迹分离提高了11个百分点，将估计的内在维度降低了34%，并且以85%的非对角答案保留率跨模型族转移。理论上，我们建立了最小充分子集的存在性、贪婪消除的局部不可约性保证，以及过度完备性和稀疏必要性的证明。这些结果表明，完整的推理轨迹通常冗长且过度完备，而最小核心则分离了语言模型预测背后的有效支持。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:23

# 揭示过度完备推理轨迹中最小核心的表征几何
来源：https://arxiv.org/abs/2605.14358
查看PDF（https://arxiv.org/pdf/2605.14358）

> 摘要：语言模型通常生成长链思维轨迹，但目前尚不清楚这些推理中有多少是保持最终预测所必需的。我们通过过度完备推理轨迹的视角来研究这一问题：生成轨迹包含的中间步骤数量超过支持模型答案所需的最小值。我们将最小核心定义为能保持最终答案或预测分布的最小子步骤集合，并引入压缩比、冗余质量、步骤必要性和必要性集中度等指标。在涵盖算术、竞赛数学、专家科学推理和常识多跳问答的六个审慎推理基准上，我们发现显著的过度完备性：在贪心最小核心提取下，平均46%的步骤可被移除，同时86%的情况下原始答案得以保持。我们还发现预测支撑高度集中：平均而言，前三个步骤占测量必要性质量的65%。除了压缩效果，最小核心还揭示了更清晰的推理几何结构：与完整轨迹相比，它们将正确/错误轨迹的分离度提升了11个百分点，将估计的内在维度降低了34%，并以85%的离对角答案保留率在不同模型族间迁移。理论上，我们证明了最小充分子集的存在性、贪心消除的局部不可还原性保证，以及过度完备性和稀疏必要性的认证。这些结果表明，完整的推理轨迹往往冗余且过度完备，而最小核心则分离出支撑语言模型预测的有效基础。

## 提交历史

作者：Sanjoy Chowdhury \[查看邮件（https://arxiv.org/show-email/dd24d0d4/2605.14358）\] **\[v1\]** 2026年5月14日星期四 04:35:45 UTC（558 KB）

揭示过度完备推理轨迹中最小核心的表征几何

相似文章

学习一致性表征：一种拓扑可解释性方法

从智能体轨迹中诱导推理原语

监控内部独白：探针轨迹揭示推理动态

从LLM推理轨迹中提取搜索树揭示了其规划中的短视现象

ReasonOps: 面向LLM推理轨迹的算子分割

提交意见反馈