重新思考逐步模型路由:一种面向表格推理的成本高效视角

arXiv cs.CL 论文

摘要

本文提出EcoTab,一种表格感知的逐步路由框架,分别估计表格标记和文本标记的不确定性,以动态地在小型和大型模型之间路由推理步骤,在表格推理任务上实现了更好的准确性与效率权衡。

arXiv:2605.29319v1 公告类型:新 摘要:大型推理模型(LRMs)在表格推理任务上表现出色,但由于较长的推理链而产生了大量的推理成本。逐步模型路由通过动态地将推理步骤分配给较小的或较大的模型来缓解此问题。然而,面向表格推理的逐步模型路由尚未得到充分探索。通过实证分析,我们发现涉及表格的推理步骤包含两种具有不同不确定性分布的标记:基于表格结构的表格标记(如单元格值和表头)和代表周围自然语言推理的文本标记。两种标记类型的不确定性与模型在下一步推理中出错的风险相关。然而,现有方法未能分别对其进行建模,导致路由决策次优。为解决此问题,我们提出了EcoTab,一种面向高效表格推理的表格感知逐步路由框架。在每个推理步骤中,EcoTab分别估计表格标记和文本标记的不确定性,将其映射到小模型的下步失败风险,并组合两个风险进行路由。在多个表格推理基准上的实验表明,EcoTab持续优于强基线,并在准确性和效率之间取得了更好的平衡。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:18

# 重新思考逐步模型路由:从成本高效表格推理的视角

来源:https://arxiv.org/html/2605.29319  
沈浩晔¹¹¹同等贡献,王宇翔²¹¹同等贡献,郭宇¹¹¹同等贡献,金东³²²²通讯作者,陈双武¹²²²通讯作者,杨建¹  
¹中国科学技术大学,²墨尔本大学,³合肥综合性国家科学中心人工智能研究院  
\{ssh0321y, yukariguo\}@mail.ustc.edu.cn \{kingdon, chensw, jianyang\}@ustc.edu.cn

###### 摘要

大型推理模型(LRMs)在表格推理任务上取得了强劲性能,但由于长推理链导致了显著的推理成本。逐步模型路由通过将推理步骤动态分配给较小或较大模型来缓解这一问题。然而,针对表格推理的逐步模型路由尚未得到充分探索。通过实证分析,我们发现涉及表格的推理步骤包含两类具有不同不确定性分布的token:基于表格结构的table token(如单元格值和表头),以及表示周围自然语言推理的text token。这两类token的不确定性与模型在下一步推理中出现错误的概率相关。然而,现有方法无法分别建模它们,导致了次优的路由决策。为解决这一问题,我们提出了EcoTab,一个面向表格推理的、表格感知的逐步路由框架。在每个推理步骤中,EcoTab分别估计table token和text token的不确定性,将其映射为小模型下一步的失败风险,并综合两种风险进行路由。在多个表格推理基准上的实验表明,EcoTab一致地超越强基线,并在准确性与效率之间取得了更优的平衡。

重新思考逐步模型路由:从成本高效表格推理的视角

沈浩晔¹¹¹同等贡献,王宇翔²¹¹同等贡献,郭宇¹¹¹同等贡献,金东³²²²通讯作者,陈双武¹²²²通讯作者,杨建¹¹  
¹中国科学技术大学,²墨尔本大学,³合肥综合性国家科学中心人工智能研究院  
\{ssh0321y, yukariguo\}@mail.ustc.edu.cn \{kingdon, chensw, jianyang\}@ustc.edu.cn

## 1 引言

表格推理在现实应用中扮演着关键角色,包括数据分析(Zhao 等人,2024),事实验证(Parikh 等人,2020)和科学报告(Newman 等人,2024)。然而,由于表格包含复杂的结构以及行列间的隐含关系,表格推理仍然具有挑战性。近年来,大型推理模型(LRMs),如 DeepSeek-R1(Guo 等人,2025)和 OpenAI 的 o系列(Pfister and Jud, 2025),通过利用测试时缩放来在推理过程中生成长推理链,从而提升了性能。尽管取得了强劲结果,但这一过程引入了极高的计算开销。大模型尺寸和大量的token使用使得 LRMs 难以在延迟敏感和资源受限的场景下部署用于表格推理(Zeng 等人,2026)。

为缓解这一瓶颈,逐步模型路由(Shi 等人,2025;Lee 等人,2025)已成为一个有前景的方向。它将推理过程分解为多个推理步骤,将简单步骤分配给更小、更便宜的模型,复杂步骤分配给更大、更昂贵的模型。这样,逐步模型路由在效率和性能之间提供了有效平衡(Fernandez 等人,2026)。现有方法,如 SpecCoT(Shi 等人,2025)和 SpecReason(Pan 等人,2025),在数学推理等自由形式文本推理任务上表现良好。然而,它们在结构化表格推理任务上的有效性尚未被充分探索。

参见标题图1:表格与自由形式文本推理任务的有效性分析。WikiTQ 和 TableBench 代表表格推理基准,而 MATH500 和 AIME24 对应自由形式文本推理基准。为探究这一问题,我们重新审视了几种逐步模型路由方法,并评估它们在表格推理任务上的效果,详见第3节。我们的分析揭示了自由形式文本推理与表格推理之间在效率与性能权衡方面的明显差距。我们发现,现有方法常常错误路由“表格特定步骤”,例如检索与问题相关的子表或对表格内容执行数值操作。为理解这一失败,我们进一步分析了根本原因,并确定了一个关键洞察:这类步骤包含两类具有不同不确定性分布的 token,即基于表格结构的 table token(如单元格值和表头),以及反映周围自然语言推理的 text token。我们进一步发现,这两类token的不确定性与小模型下一步的失败风险相关,而这一风险对于模型选择具有信息价值。然而,现有方法缺乏对 table token 和 text token 的联合建模,导致在表格推理任务上路由性能不佳。

受这些发现启发,我们提出了 EcoTab,一种面向表格推理的、高效的表格感知逐步模型路由框架。EcoTab 基于一个简单的直觉:table token 和 text token 展现出不同的不确定性分布,因此在路由过程中应分别建模。对于每个推理步骤,EcoTab 首先识别当前推理步骤中的 table token 和 text token,并分别估计其不确定性。为考虑它们不同的分布,EcoTab 构建了两个离线风险映射,将这些不确定性转换为下一步失败风险,每个风险反映了小模型在下一步失败的可能性。最后,EcoTab 将两个失败风险合并为一个统一的路由分数,并与阈值比较,以决定下一步应由小模型还是大模型生成。

我们的贡献。(1) **新视角**。我们首次对表格推理的逐步模型路由进行了系统研究。我们揭示了表格推理步骤包含两类具有不同不确定性分布的 token,解释了为什么为自由形式文本设计的现有路由方法在表格推理上失败。(2) **新框架**。我们提出了 EcoTab,一个高效的表格感知逐步模型路由框架,用于表格推理。(3) **最新性能**。在多个表格推理基准上的实验表明,EcoTab 一致地超越强基线,并在准确性与效率之间取得了更优的平衡。

## 2 预备知识

#### 使用 LRM 进行表格推理。

给定一个表格 \(T\) 和一个自然语言查询 \(Q\),LRM 生成一个推理步骤序列 \(s_1, \dots, s_n\),记作 \(s_{1:n}\),其中每个步骤 \(s_i\) 包含 \(k_i\) 个 token。遵循先前研究(Pan 等人,2025;Zeng 等人,2026),我们使用换行分隔符 “\n\n” 将推理轨迹划分为步骤。

#### 逐步模型路由。

给定当前推理前缀 \(s_{1:n}\),逐步模型路由动态选择小推理模型(SRM)或大推理模型(LRM)来生成下一个推理步骤 \(s_{i+1}\),以提高计算效率。形式上,下一步生成为:

\[
s_{i+1} \sim p_{\theta_{i+1}}(\cdot \mid T, Q, s_{1:i}), \quad \theta_{i+1} = r(\mathcal{I}_{i+1})
\]

其中 \(p_{\theta_{i+1}}\) 表示所选推理模型的概率分布,\(\theta_{i+1} \in \{\theta_M, \theta_m\}\) 对应 LRM 或 SRM。这里 \(r(\cdot)\) 表示路由函数,\(\mathcal{I}_{i+1}\) 表示用于确定第 \(i+1\) 步模型的路由信息。根据路由函数的不同,\(\mathcal{I}_{i+1}\) 可能来自之前生成的步骤 \(s_i\)(Lee 等人,2025),或来自轻量预览或下一步的草稿(Pan 等人,2025;Zeng 等人,2026;Shi 等人,2025)。在本工作中,我们使用 \(s_i\) 作为 \(\mathcal{I}_{i+1}\),这避免了额外的 token 生成开销。

参见标题图2:在 GlimpRouter 下,1000个错误案例中四个步骤类别的错误分布。

## 3 动机

在本节中,我们探讨为什么表格推理需要一种超越现有为自由形式文本推理设计的逐步模型路由的专门方法。这引出了我们的第一个研究问题:

**RQ1 – 自由形式文本路由方法是否能有效适应表格推理?**

**有效性分析。** 逐步模型路由的有效性取决于以更低的成本达到仅使用 LRM 的准确性,我们通过 FLOPs 来衡量。我们评估了几种代表性方法,包括 GlimpRouter(Zeng 等人,2026)、SpecReason(Pan 等人,2025)、SpecCoT(Shi 等人,2025)和随机路由。我们采用 Qwen3-1.7B 和 Qwen3-14B(Yang 等人,2025a)作为 SRM 和 LRM。评估覆盖了表格推理基准,包括 WikiTQ(Pasupat and Liang, 2015)和 TableBench(Wu 等人,2025a),以及自由形式文本推理基准如 MATH500(Lightman 等人,2023)和 AIME24。更多实验细节见附录 A。如图1所示,将更多步骤分配给更强的 LRM 自然会增加 FLOPs 和准确性。然而,现有路由方法在表格推理上的效率远低于在自由形式文本推理上。在自由形式文本基准上,它们以仅约 60% 的完整 FLOPs 达到了接近 LRM 的性能。相比之下,在表格推理基准上,它们需要近 80% 的完整 FLOPs 才能达到类似的性能水平。这一效率差距表明,现有方法并未有效迁移到表格推理。

参见标题图3:(左)正确步骤与错误步骤在自由文本步骤和表格特定步骤上的平均熵差异。(右)表格特定步骤中 table token 和 text token 的熵分布。

**错误分析。** 为理解这一效率差距的来源,我们对路由过程进行了错误分析。具体来说,我们随机抽样了1000个在仅使用 LRM 设置下正确解决但在 GlimpRouter(Zeng 等人,2026)下失败的案例,并请人类专家识别每个案例中的失败步骤,将其分类为四种错误类型之一,遵循 TaTToo(Zou 等人,2026):(i) 表格检索、(ii) 表格操作、(iii) 内部思考 和 (iv) 其他(定义见附录 A)。表格检索和表格操作被定义为“表格特定步骤”,因为它们对于表格推理是独特的,而内部思考和其他被视为“自由文本步骤”。如图2所示,82.7% 的路由错误来自表格特定步骤。这表明自由形式文本路由方法未能正确路由这些步骤,常常在真正需要 LRM 时却将其分配给 SRM。**RQ1 的发现:** 自由形式文本路由方法未能正确路由表格特定步骤,导致了表格推理中的显著效率差距。

参见标题图4:(左)在 WikiTQ 和 TableBench 上,表格特定步骤在四个熵组中的错误百分比。(右)四个组的总体错误分布。

这引出了一个后续研究问题:

**RQ2 – 为什么自由形式文本路由方法在表格特定推理步骤上失败?**

**Table Token 与 Text Token 不同。** 为理解这一失败,我们比较了自由文本步骤与表格特定步骤。遵循 GlimpRouter,我们使用平均步骤熵作为路由分数,并随机抽样了500个正确步骤和500个错误步骤。如图3(左)所示,自由文本步骤在正确案例和错误案例之间显示出清晰的分离,平均熵差距为0.14。相比之下,表格特定步骤的差距急剧下降至0.06。这表明步骤级别的熵对于路由表格特定步骤的信息量远少。然后,我们在 token 级别上分析表格特定步骤,将每个步骤分为 table token 和 text token。如图3(右)所示,这两类 token 展现出明显不同的熵分布。这表明它们在推理过程中扮演着不同的角色,这也与先前关于表格推理的研究一致(Wang 等人,2025a;Zou 等人,2026;Li 等人,2025)。

参见标题图5:EcoTab 框架概览。通过对每个推理步骤 \(s_i\) 中的 table token 和 text token 分别建模,EcoTab 能够实现更有效的 SRM 和 LRM 之间的路由,用于表格推理。

**两种 Token 类型对路由都很重要。** 基于上述分析,我们进一步询问 table token 和 text token 是否都与下一步失败风险相关。具体来说,我们计算了1000个抽样步骤(包括500个正确步骤和500个错误步骤)中 table token 和 text token 的平均熵。对于每种 token 类型,我们使用第70百分位数作为阈值(Noti 等人,2021)。分数高于阈值标记为 High,低于阈值标记为 Low。这给出了四个组:High-High、High-Low、Low-High 和 Low-Low。然后我们检查500个错误步骤在这四个组中的分布。如图4所示,错误并不只集中在 High-High 组。相当大的一部分也落入 High-Low 和 Low-High 组。这表明,单独的高 table token 不确定性或高 text token 不确定性都可能与失败风险相关。因此,有效的路由应考虑两种 token 类型,而不是仅依赖于其中一种。

**EcoTab 的洞察。** 在表格推理中,table token 和 text token 展现出不同的不确定性分布,并且两者都对 SRM 的下一步失败风险具有信息价值。

## 4 EcoTab

受此洞察启发,我们提出了...

相似文章

面向逐步模型路由的评分引导过程奖励

arXiv cs.AI

RoRo 提出了一种面向大型推理模型逐步模型路由的评分引导过程奖励框架,将过程奖励与结果奖励结合,通过 GRPO 训练路由策略,在推理基准测试中优于基线方法。

TimeRouter:高效自适应的时间序列基础模型路由

arXiv cs.LG

TimeRouter 提出了一种高效的时间序列基础模型路由框架,利用轻量级判别路由和选择性门控,无需大型语言模型(LLM)开销即可自适应选择最佳专家模型,在 GIFT-EVAL 排行榜上达到了最先进水平。

TabularMath:用大语言模型理解表格上的数学推理

arXiv cs.CL

TabularMath 引入了一个基准和 AutoT2T 框架来评估 LLM 对表格数据的数学推理能力,揭示表格复杂性、数据质量和模态对模型性能的重大影响。该研究通过系统地评估模型对真实场景中不完整或不一致表格信息的鲁棒性,填补了 LLM 评估中的空白。

大型学习模型中增强且高效的推理

arXiv cs.AI

本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。