ReasoningFlow: 用于理解LLM推理轨迹的篇章结构
摘要
介绍 ReasoningFlow,一个将大语言模型推理轨迹的篇章结构捕获为有向无环图的框架,从而能够细粒度分析推理行为(如自我反思和回溯)。基于对数千条轨迹的手动和自动标注,揭示了模型之间的结构相似性,并且大多数错误步骤并不贡献于最终答案。
arXiv:2606.05402v1 公告类型:新
摘要:大型推理模型(LRM)生成具有非线性结构(如回溯和自纠正)的推理轨迹,这使得推理过程的评估和监控变得复杂。我们提出了 ReasoningFlow,一个将 LRM 推理轨迹的篇章结构细粒度地捕获为有向无环图(DAG)的框架。我们通过仔细手动标注 31 条轨迹(2,100 步)来开发和验证我们的标注方案,获得了高标注者间一致性,然后扩展为自动标注 1,260 条轨迹(247,700 步),涵盖三个任务(数学、科学、论证)和五个模型(Qwen2.5-32B-Inst、QwQ-32B、DeepSeek-V3、DeepSeek-R1、GPT-oss-120B)。通过分析 ReasoningFlow 图,我们发现:(1)LRM 展现出结构相似的轨迹,尽管它们是从不同的基础模型训练而来,并且可能使用不重叠的后训练数据。(2)ReasoningFlow 揭示了多样化的细粒度推理行为(例如局部验证、自我反思和假设),可用于提高推理轨迹的可监控性。(3)在 LRM 中,大多数错误步骤并不用于推导最终答案。(4)步骤之间的因果依赖关系并不反映语言层面的篇章结构。我们在 https://github.com/jinulee-v/reasoningflow 发布了数据集和代码。
查看缓存全文
缓存时间: 2026/06/05 08:06
# 理解LLM推理轨迹的话语结构
来源:https://arxiv.org/html/2606.05402
Jinu Lee, Shivam Agarwal, Amruta Parulekar, Siddarth Madala, Dilek Hakkani\-Tür, Julia Hockenmaier
伊利诺伊大学厄巴纳-香槟分校
\{jinulee2, shivam2, amp20, smadala2, dilek, juliahmr\}@illinois\.edu
###### 摘要
大型推理模型(LRMs)生成的推理轨迹具有非线性结构(如回溯和自我修正),这使得推理过程的评估与监控变得复杂。我们提出 **ReasoningFlow**,一个将LRM推理轨迹的话语结构捕获为细粒度有向无环图(DAG)的框架。我们通过对31条推理轨迹(2.1k步)进行仔细的人工标注来开发和验证标注方案,取得了很高的人工间一致性,然后扩展到对1,260条推理轨迹(247.7k步)的自动标注,涵盖三个任务(数学、科学、论证)和五个模型(Qwen2.5-32B-Inst、QwQ-32B、DeepSeek-V3、DeepSeek-R1、GPT-oss-120B)。通过对ReasoningFlow图的分析,我们发现:(1)LRMs尽管训练自不同的基座模型且后训练数据可能不重叠,但生成的推理轨迹在结构上具有相似性。(2)ReasoningFlow揭示了多样化的细粒度推理行为(例如局部验证、自我反思和假设),可用于改进推理轨迹的可监控性。(3)在LRMs中,大多数错误步骤并未被用于推导最终答案。(4)步骤之间的机械因果依赖关系并不能反映语言层面的话语结构。我们在以下网站发布数据集和代码:主页 (https://github.com/jinulee-v/reasoningflow)。
## 1 引言
大型推理模型(LRMs,例如DeepSeek-R1 (Guo et al., 2025) (https://arxiv.org/html/2606.05402#bib.bib1))生成的推理轨迹较长且包含非线性推理行为,如验证、自我反思和回溯 (Gandhi et al., 2025) (https://arxiv.org/html/2606.05402#bib.bib2)。这种非线性特性使得正确性评估和忠实性监控都变得复杂。例如,逐步骤评估 (Lightman et al., 2024) (https://arxiv.org/html/2606.05402#bib.bib45) 可能会标记一个错误步骤,但如果自我验证覆盖了之前的错误,整个轨迹仍然可能是正确的。最近尝试理解LRM轨迹非线性结构的工作,要么缺乏表达性的关系标签,要么仅标注段落间的结构 (Bogdan et al., 2025) (https://arxiv.org/html/2606.05402#bib.bib5); Jiang et al., 2025 (https://arxiv.org/html/2606.05402#bib.bib82); Marjanovic et al., 2026 (https://arxiv.org/html/2606.05402#bib.bib3),这些对于标注细粒度的推理行为来说过于粗糙。另一方面,针对人类文本的话语结构标注 (Carlson et al., 2001) (https://arxiv.org/html/2606.05402#bib.bib26); Stab and Gurevych, 2017 (https://arxiv.org/html/2606.05402#bib.bib9) 无法捕捉目标导向推理轨迹中涌现的关系和结构。
参见图注
图1:ReasoningFlow图示例。ReasoningFlow将推理轨迹分割为**节点**,并将节点之间的关系标注为**边**。此示例展示了演绎推理(resp16-20)和自我反思/验证(resp20-23)行为。
| Schema | LRM? | # 节点 | # 边 | 粒度 | 结构 | IAA? |
|--------|------|--------|------|------|------|------|
| PARC (Mukherjee et al., 2025) (https://arxiv.org/html/2606.05402#bib.bib14) | X | 1 | 1 | 段落 | DAG | O |
| Thought Anchors (Bogdan et al., 2025) (https://arxiv.org/html/2606.05402#bib.bib5) | O | 8 | 1 | 句子 | DAG | O |
| R1-Thoughtology (Marjanovic et al., 2026) (https://arxiv.org/html/2606.05402#bib.bib3) | O | 4 | - | 段落 | 线性 | X |
| LCoT2Tree (Jiang et al., 2025) (https://arxiv.org/html/2606.05402#bib.bib82) | O | 1 | 4 | 段落 | 树 | X |
| ReJump (Zeng et al., 2025b) (https://arxiv.org/html/2606.05402#bib.bib4) | O | 1 | 3 | 段落 | 树 | X |
| **ReasoningFlow (本文)** | O | 8 | 14 | 子句 | DAG | O |
表1:LLM推理轨迹结构标注方案对比。每列对应:(LRM?) 是否设计用于容纳LRM的长轨迹,# 节点 节点标签数,# 边 边标签数,粒度 节点的粒度,结构 生成的图结构,IAA? 是否有多个人工标注者验证方案。截至撰写时,ReasoningFlow是唯一一个标注细粒度节点和边,并通过人工间一致性分析进行验证的工作。
我们开发了 **ReasoningFlow**,一个用于标注推理轨迹细粒度话语结构的框架。ReasoningFlow将推理轨迹转换为有8种节点类型和14种边类型的有向无环图。我们发布了31条人工标注并交叉验证的推理轨迹(2.1k步),以及由五个模型(Qwen2.5-32B-Inst、QwQ-32B、DeepSeek-V3、DeepSeek-R1、GPT-oss-120B)在数学、科学和论证任务上生成的1,260条自动标注轨迹(247.7k步)。ReasoningFlow可用于改进推理轨迹的可监控性和忠实性。使用ReasoningFlow,我们发现:
- • 不同系列和大小的LRMs展现相似的推理轨迹结构。
- • ReasoningFlow可以识别出细粒度的推理行为,如**局部验证**、**自我反思**和**假设**,为监控推理轨迹提供了新的维度。
- • LRMs中大多数错误步骤并非导致最终答案错误的因果原因,这解释了为什么错误检测不能直接转化为LRMs性能的提升。
- • 机械地测量的步骤间因果依赖关系 (Bogdan et al., 2025) (https://arxiv.org/html/2606.05402#bib.bib5) 并不能忠实地反映文本层面的话语关系。
## 2 相关工作
### 2.1 推理轨迹结构
在LRMs出现之前,推理轨迹通常被视为蕴涵图,每个步骤锚定到其逻辑前提 (Ling et al., 2023) (https://arxiv.org/html/2606.05402#bib.bib6); Mukherjee et al., 2025 (https://arxiv.org/html/2606.05402#bib.bib14)。然而,这些图仅显示逻辑蕴涵,因此无法捕捉LRMs展现的多样化推理模式,包括规划和验证。早期分析LRM轨迹的工作侧重于建模验证。Marjanovic et al. (2026) (https://arxiv.org/html/2606.05402#bib.bib3) 将LRM轨迹视为初始解决方案后跟迭代验证尝试,而Jiang et al. (2025) (https://arxiv.org/html/2606.05402#bib.bib82); Zeng et al. (2025b) (https://arxiv.org/html/2606.05402#bib.bib4) 将轨迹建模为以验证和回溯超边连接的段落树 (Yao et al., 2023) (https://arxiv.org/html/2606.05402#bib.bib75)。然而,这两种方法都过于粗糙,无法描述可能发生在子句级别的完整推理行为谱系 (第6节 (https://arxiv.org/html/2606.05402#S6))。所有这些工作都有一个更根本的局限性:没有通过人工间一致性验证其标注方案,因此所提出的框架是否具有一致的可解释性仍然存疑。鉴于LRM推理轨迹的语言复杂性,迫切需要一种既足够表达以捕捉多样化推理模式,又足够可靠以由人工标注者一致应用的框架。表1 (https://arxiv.org/html/2606.05402#S1.T1) 比较了LLM推理轨迹结构标注的相关工作。
### 2.2 话语/论证结构
话语和论证解析框架已被广泛应用于捕捉长文本的语义结构。**话语结构**:修辞结构理论(RST)构建了具有两个子句之间单向关系的层次化话语结构 (Mann and Thompson, 1988) (https://arxiv.org/html/2606.05402#bib.bib25)。RST定义了超过20种子句间关系类型(例如,阐述、原因、条件),覆盖作者多样的修辞意图 (Carlson et al., 2001) (https://arxiv.org/html/2606.05402#bib.bib26)。**论证结构**:捕捉文本片段的论证角色(主论点、次论点、前提)以及两个片段之间的语义关系(该片段是支持还是反对相应的论点?)(Stab and Gurevych, 2017) (https://arxiv.org/html/2606.05402#bib.bib9)。得到的文档结构通常表示为树,其中原子前提递归连接到顶层的总论点。然而,这两种方法与LLM推理轨迹并不完全兼容,原因有二。第一,现有方案不是为容纳推理轨迹特有的现象(如验证)而设计的,这些现象很少出现在组织良好的新闻或论证文本中。第二,自回归生成的LRM轨迹只表现出从左到右的因果依赖关系,类似于即兴的人类言语 (Kempen and Hoenkamp, 1987) (https://arxiv.org/html/2606.05402#bib.bib49),而有组织的文本则经常表现出**后向**依赖关系。这些都凸显了需要专门为推理轨迹设计标注方案。附录B (https://arxiv.org/html/2606.05402#A2) 包含ReasoningFlow与LLM推理、计算语言学、形式逻辑和认知科学等领域相关工作的详细比较。
## 3 ReasoningFlow方案
我们介绍ReasoningFlow,一个用于标注推理轨迹细粒度语义结构的框架。我们采用**有向无环图**(DAG)结构,其中边始终从较早步骤流向较晚步骤,类似于自回归LLM中从左到右的信息流 (Ling et al., 2023) (https://arxiv.org/html/2606.05402#bib.bib6); Bogdan et al., 2025 (https://arxiv.org/html/2606.05402#bib.bib5)。与基于投射修辞结构理论的树 (Carlson et al., 2001) (https://arxiv.org/html/2606.05402#bib.bib26) 和单根论证树 (Stab and Gurevych, 2017) (https://arxiv.org/html/2606.05402#bib.bib9) 相比,DAG既提供了结构灵活性(例如交叉边、一个步骤有多个后继),也提供了直接的自动标注算法(第4.2节 (https://arxiv.org/html/2606.05402#S4.SS2))。
**节点**:节点是连续的、不重叠的片段,包含基本的推理步骤。我们主要将每个句子视为一个节点,但当两个子句具有不同的功能角色时,我们会将一个句子划分为多个节点。例如,如果一个步骤写道"因此,xx应该是17,但我应该再检查一下。",那么给前半部分(计算结果)和后半部分(计划验证)分配不同的角色会更自然。我们根据功能角色定义了8种节点类型。三种核心类型是**推理**、**规划**和**反思**。**推理**节点包含演绎和计算等主要构建模块,**规划**节点引入后续节点的内容,**反思**节点评估前续节点的正确性或表达确定性。此外,我们还定义了**推理**节点的五种特殊情况:**事实**、**重述**、**假设**、**示例**和**结论**。这些节点为下游应用提供额外信息;例如,**假设**节点定义了假设范围,表示后续节点可能是有意不正确的(即反证法);**结论**节点包含模型对问题的答案,用于评估准确性。所有节点标签的定义和示例可在表LABEL:tab:node-labels中找到。
**边**:下一步是将节点之间的语义关系标注为有向边。所有边都连接单个节点,并约束为从左到右流动,唯一地将较早节点连接到序列中较晚的节点。我们定义了14种边标签,分为四大类:**原因**、**规划**、**反思**和**验证**。**原因**相关边描述当前步骤如何从先前步骤推导出来,例如逻辑推理(infer)、执行计划(execute)或重述先前节点(restate)。**规划**相关边显示一个**规划**节点如何由先前步骤驱动,例如开始下一步(proceed)或尝试验证(verify)。**反思**相关边显示**反思**节点评估哪些节点以及情感倾向。最后,**验证**相关边比较远距离节点之间的命题等价性,决定后续节点是**支持**还是**攻击**先前的陈述。边标签的详细定义和示例可在表LABEL:tab:edge-labels中找到。
## 4 数据集构建
### 4.1 人工标注
为了验证ReasoningFlow方案,我们进行了带人工间一致性评估的人工标注。人工标注部分包括从NuminaMath (Zeng et al., 2025a) (https://arxiv.org/html/2606.05402#bib.bib50) 和STILL-2 (Min et al., 2024) (https://arxiv.org/html/2606.05402#bib.bib51) 中选出的31道数学、物理和化学问题,推理轨迹由QwQ-32B-Preview (Qwen Team, 2024) (https://arxiv.org/html/2606.05402#bib.bib42) 在温度0下生成。四位作者参与了人工标注,每条轨迹分配两位标注者。我们测量了两种人工间一致性:节点分类(NC)和边检测/分类(EDC)。NC测量两位标注者是否选择了相同的节点标签(类别数 \(k=8\));EDC测量两位标注者是否就两个节点是否相连以及相连时的边标签达成一致(\(k=15\):无连接和14种边标签)。两位标注者使用由其中一位标注者完成的相同分段。结果显示,标注者在NC和EDC上取得了显著的一致性,Krippendorff's \(\alpha > 0.8\)(表2 (https://arxiv.org/html/2606.05402#S4.T2)),这被认为是高度可靠的 (Krippendorff, 2004) (https://arxiv.org/html/2606.05402#bib.bib43)。这种一致性水平表明ReasoningFlow的类别定义明确,且在不同标注者之间具有一致的可解释性。
| 指标 | Krippendorff's \(\alpha\) | N |
|------|---------------------------|---|
| NC | 0.8851 | 1,657 |
| EDC | 0.9193 | 122,630 |
表2:四位人工标注者之间测得的Krippendorff's \(\alpha\)。每个例子分配给两位标注者。高 \(\alpha > 0.8\) 验证了ReasoningFlow的标注方案。
### 4.2 自动标注
我们使用基于LLM的自动标注流水线进行大规模ReasoningFlow标注。
#### 4.2.1 基础轨迹生成
我们选择了三个代表性的数据集:AIME 2024 (Mathematical Association of America, 2024) (https://arxiv.org/html/2606.05402#bib.bib96)、GPQA-Diamond (Rein et al., 2023) (https://arxiv.org/html/2606.05402#bib.bib7) 和 ArgKP (Bar-Haim et al., 2020) (https://arxiv.org/html/2606.05402#bib.bib8)。AIME 2024包含30道竞赛级数学题。GPQA-Diamond是一个科学知识和推理基准,包含198道物理、化学和生物学问题。最后,ArgKP是一个论证基准,包含24个有争议的陈述(例如"我们应该禁止焚烧国旗。"),目标是选择立场(同意/不同意)并提供理由。我们使用了总共五个模型来收集推理轨迹。对于LRMs,我们选择了三个代表模型:DeepSeek-R1 (Guo et al., 2025) (https://arxiv.org/html/2606.05402#bib.bib1), 671B)、QwQ-32B (Qwen Team, 2024) (https://arxiv.org/html/2606.05402#bib.bib42) 和 GPT-oss-120B (OpenAI, 2025) (https://ar相似文章
ReasonOps: 面向LLM推理轨迹的算子分割
ReasonOps 提出了一种无监督方法,用于对大型推理模型的思维链轨迹进行标注,识别出 7 个常出现的推理算子。该方法支持对 12 个模型和 8 个基准上的推理结构、模型识别和正确性预测进行分析。
大型语言模型中的推理源于受限推理流形
本文将大语言模型中的推理视为一种内在的动力学过程,发现推理时的表征会自组织成低维流形。文章提出了一种基于内部动力学的无标签诊断方法,以评估推理质量,表明有效的推理受到几何和信息约束的支配。
答案词元如何读取推理轨迹?思维大模型在定量推理中的自读模式
研究发现,思维大模型中的答案词元在定量推理时遵循结构化自读模式——前向漂移+聚焦关键锚点,并据此提出免训练 SRQ 引导方法,无需微调即可提升准确率。
LLM推理研究中的奇怪现象:我们正在尝试去除思维链痕迹
本文讨论了LLM推理研究的一个转变:从通过思维链使推理显式化,转向探索无需语言痕迹的潜在推理,质疑可见性对于有效推理是否必要。
大型语言模型中用于结构推理的视觉图支架
本文探讨了将视觉图思维导图用作LLMs的推理支架,发现即使没有直接答案提示,视觉引导仍然有效,而将图扁平化为文本则会失去优势。