BitCal-TTS:面向量化推理模型的比特校准测试时扩展

arXiv cs.AI 论文

摘要

本文介绍了 BitCal-TTS,这是一种运行时控制器,通过在测试时扩展期间校准置信度信号,提高了量化推理模型的准确性并减少了过早终止的问题。

arXiv:2605.05561v1 公告类型:新论文 摘要:训练后量化使得大型推理模型在严格的内存和延迟预算下变得可行,但它可能会扭曲驱动自适应测试时计算分配的在线信号。在新生成令牌数量固定上限的情况下,校准不当的置信度可能导致有害的过早终止:模型可能会展示出一条看似合理的最终结果行,但底层的推理仍是错误的,或者控制器可能在轨迹稳定之前停止。我们研究了贪心 4 位推理中的这种相互作用,并提出了 BitCal-TTS,这是一种轻量级运行时控制器,它结合了:(i) 廉价的在线代理,用于评估令牌级不确定性和推理轨迹的稳定性;(ii) 一种比特条件置信度重缩放方法,在低名义精度下表现保守;以及 (iii) 一种为 GSM8K 风格结构化输出设计的比特感知后标记确认视界。该方法无需微调基础模型,并可通过前向钩子(forward hooks)与标准的 Hugging Face 4 位推理集成,以获取 logits 和最后一层隐藏状态。 在 Qwen2.5 Instruct 模型的 GSM8K 小评估分片上,BitCal-TTS 在 7B 和 14B 规模上比非比特感知的自适应基线提高了精确匹配准确率,同时相对于固定预算解码保留了显著的令牌节省。在令牌上限 B=512 的情况下,在我们报告的评估分片上(7B 为 N=54,14B 为 N=35;并非完整的 GSM8K 测试集),准确率提升分别为 7B 增加 3.7 个百分点和 14B 增加 2.8 个百分点,7B 的过早终止率从 14.8% 降至 11.1%,14B 的过早终止率从 17.1% 降至 11.4%。我们在全文中报告了 Wilson 95% 置信区间,并明确讨论了部分分片比较的有限统计功效。我们发布了代码和图表生成脚本以支持完整复现。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:24

# 量化推理模型的比特校准测试时扩展

代码: https://github.com/Saibabu7770/bitcal-tts  
来源: https://arxiv.org/html/2605.05561 (2026年5月)

###### 摘要

训练后量化使得大型推理模型在严格的内存和延迟预算下变得实用,但它可能会扭曲驱动自适应测试时计算分配的在线信号。在新生成令牌数量固定上限的情况下,校准错误的置信度可能导致有害的过早停止:模型可能在底层推理仍然错误时展示看似合理的最终行,或者控制器可能在推理轨迹稳定之前停止。我们研究了贪婪式 4 比特推理中的这种交互作用,并提出了 **BitCal-TTS**,这是一个轻量级的运行时控制器,它结合了:(i) 用于令牌级不确定性和推理轨迹稳定性的廉价在线代理;(ii) 在低名义精度下保守的比特条件置信度重缩放;以及 (iii) 专为 GSM8K 风格结构化输出设计的比特感知后标记确认视界。该方法*不需要*对基础模型进行微调,并通过前向钩子获取 logits 和最后一层隐藏状态,与标准的 Hugging Face 4 比特推理集成 \[1 (https://arxiv.org/html/2605.05561#bib.bib1),2 (https://arxiv.org/html/2605.05561#bib.bib2)\]。在 GSM8K \[3 (https://arxiv.org/html/2605.05561#bib.bib3)\] 的小型评估分片上,使用 Qwen2.5 Instruct 模型 \[4 (https://arxiv.org/html/2605.05561#bib.bib4)\],BitCal-TTS 在 7B 和 14B 规模上提高了精确匹配准确率,优于非比特感知的自适应基线,同时相对于固定预算解码保留了大量的令牌节省。在令牌上限 $B=512$ 下,在报告的评估分片上(7B 为 $N=54$,14B 为 $N=35$;*并非*完整的 GSM8K 测试集),准确率增益为 +3.7 分(7B)和 +2.8 分(14B),过早停止率从 14.8%(7B)降至 11.1%,从 17.1%(14B)降至 11.4%。我们在全文中报告了 Wilson 95% 置信区间,并明确讨论了部分分片比较的统计功效有限的问题。我们发布了代码和图表生成脚本以支持完整复现。

关键词:测试时扩展,量化,自适应停止,GSM8K 推理,不确定性校准,大型语言模型。

## 1 引言

以推理为中心的大型语言模型(LLM)通常受益于在推理时花费更多的计算资源。链式思维(Chain-of-thought)风格的深思熟虑 \[5 (https://arxiv.org/html/2605.05561#bib.bib5),6 (https://arxiv.org/html/2605.05561#bib.bib6)\] 以及更近期的顺序测试时扩展策略 \[7 (https://arxiv.org/html/2605.05561#bib.bib7),8 (https://arxiv.org/html/2605.05561#bib.bib8)\] 可以大幅提高数学和逻辑任务上的可验证准确率。然而,在生产部署中,这种计算资源几乎是*有界*的:令牌上限 $B$ 控制着延迟和成本,产品表面经常在答案“看起来完整”时添加早期退出启发式方法。

本文关注部署中越来越常见的一种设置:在激进的训练后量化(例如,通过 `bitsandbytes` \[2 (https://arxiv.org/html/2605.05561#bib.bib2),9 (https://arxiv.org/html/2605.05561#bib.bib9),10 (https://arxiv.org/html/2605.05561#bib.bib10)\] 实现 4 比特权重)和硬令牌预算 $B$ 下服务的*因果*指令微调 LLM。量化扩大了适合消费级 GPU 的模型集合,但也改变了 logits 和隐藏状态的几何结构。令牌熵和轨迹稳定性等在线停止信号相对于全精度变得校准错误:策略可能*显得*自信,但底层推理仍然不可靠,从而增加了过早停止的风险 \[11 (https://arxiv.org/html/2605.05561#bib.bib11),12 (https://arxiv.org/html/2605.05561#bib.bib12)\]。

这种失败模式是双重的——最终准确率降低*以及*自适应计算浪费在虚假的“最终”片段上。

#### 研究问题

我们解决三个问题:
(Q1) 当控制器将信号视为全精度模型时,激进的 4 比特量化如何影响自适应停止信号的可靠性?
(Q2) 对置信度和答案后确认窗口进行精度感知的调整,是否能在不训练基础模型的情况下恢复有意义的准确率损失?
(Q3) 这些效应在代表性数学推理基准上的不同推理模型规模(3B / 7B / 14B)之间如何扩展?

#### 贡献

- • 我们形式化了具有停止动作 $\{\texttt{continue}, \texttt{stop}, \texttt{escalate}\}$ 的量化因果 LM 的有预算、逐步推理循环,并对比了 (a) 固定预算解码、(b) 具有精度*无关*校准器的自适应解码,以及 (c) 提出的 BitCal-TTS。
- • 我们引入了透明的、与实现一致的令牌熵、推理轨迹稳定性和最后一层隐藏状态漂移代理,并展示了比特宽度乘法尺度如何使激进量化下的停止决策变得保守。
- • 我们提出了一种面向 GSM8K 的*后标记*确认规则:一旦出现标准的 `####` 答案分隔符,解码就切换到比特条件的尾部预算,然后才允许终止。这避免了将分隔符视为立即停止信号,我们发现这在 4 比特噪声下很脆弱。
- • 我们报告了 Qwen2.5-3B/7B/14B Instruct 在 4 比特推理下的 GSM8K 结果,包括对 7B 模型的多预算扫描。BitCal-TTS 在 7B 和 14B 上恢复了自适应与固定准确率差距的有意义部分,同时相对于始终消耗全部预算保留了大量的令牌节省。我们额外记录了一个自适应变体均无效的场景——Qwen2.5-3B 在 4 比特下,并分析了其直接原因(第 7 节 (https://arxiv.org/html/2605.05561#S7))。

#### 论文结构

第 2 节 (https://arxiv.org/html/2605.05561#S2) 形式化了硬上限下的自适应计算,并回顾了量化如何扰动在线停止信号。第 3 节 (https://arxiv.org/html/2605.05561#S3) 将这项工作置于测试时扩展、自适应解码、验证和量化可靠性的背景下。第 4 节 (https://arxiv.org/html/2605.05561#S4) 指定了提出的控制器。第 5 节 (https://arxiv.org/html/2605.05561#S5) 描述了实验协议。第 6 节 (https://arxiv.org/html/2605.05561#S6) 和第 7 节 (https://arxiv.org/html/2605.05561#S7) 呈现并分析了实证发现。第 8 节 (https://arxiv.org/html/2605.05561#S8) 讨论了局限性和更广泛的影响。第 9 节 (https://arxiv.org/html/2605.05561#S9) 总结。

## 2 背景与动机

#### 硬上限下的自适应计算

令 $B \in \mathbb{N}$ 表示单个提示词允许产生的*新*令牌的最大数量。*固定*策略总是请求 $B$ 个令牌(或在序列结束时停止),这是安全的,但在许多问题允许较短推理链时往往效率低下。*自适应*策略将短生成片段与廉价测量交织在一起,并可能在预算耗尽之前终止,理想情况下不会牺牲质量。

#### 量化改变在线信号

训练后量化将权重——有时还有激活——映射到低比特容器中,同时试图保持下游质量 \[9 (https://arxiv.org/html/2605.05561#bib.bib9),10 (https://arxiv.org/html/2605.05561#bib.bib10),13 (https://arxiv.org/html/2605.05561#bib.bib13),14 (https://arxiv.org/html/2605.05561#bib.bib14)\]。一个独立但核心于本研究的问题是,量化如何影响自回归解码期间从 logits 和激活派生的*在线*停止信号。如果低位推理相对于全精度放大了过早的置信度,自适应控制器将比预期更早停止,在没有实现相对于良好调整固定预算的相应节省的情况下牺牲准确率。

#### GSM8K 中的结构化最终答案

GSM8K \[3 (https://arxiv.org/html/2605.05561#bib.bib3)\] 采用标准的提取协议,其中最终数值答案遵循分隔符令牌 `####`。分隔符便于解析,但在量化下,它可能出现在局部流畅但全局不正确的轨迹中。因此,BitCal-TTS 将分隔符检测视为*阶段变化*:第一次出现后,解码继续持续一个精度条件的视界,然后才允许终止。

## 3 相关工作

#### 测试时扩展和自适应解码

推理时计算可以通过允许更长的思维链 \[5 (https://arxiv.org/html/2605.05561#bib.bib5)\]、采样和聚合多个候选者 \[6 (https://arxiv.org/html/2605.05561#bib.bib6)\],或通过结构化搜索如 Tree-of-Thoughts 和 ReAct \[15 (https://arxiv.org/html/2605.05561#bib.bib15),16 (https://arxiv.org/html/2605.05561#bib.bib16)\] 进行扩展。最近的工作研究了如何最优地扩展测试时计算,以及简单的小型测试时缩放器如何媲美大得多的预算 \[7 (https://arxiv.org/html/2605.05561#bib.bib7),8 (https://arxiv.org/html/2605.05561#bib.bib8),17 (https://arxiv.org/html/2605.05561#bib.bib17)\]。更接近我们制度的是,自适应计算策略基于置信度或估计难度扩展生成深度 \[18 (https://arxiv.org/html/2605.05561#bib.bib18),19 (https://arxiv.org/html/2605.05561#bib.bib19)\]。大多数已发布的策略是为全精度模型描述和调优的;我们的实验在保持控制器骨架固定的同时,隔离了激进量化引入的额外误差。

#### 验证和过程监督

除了“生成更长”之外,数学推理受益于结果级和步骤级验证 \[20 (https://arxiv.org/html/2605.05561#bib.bib20)\],包括 DeepSeek-R1 \[21 (https://arxiv.org/html/2605.05561#bib.bib21)\] 和 OpenAI o1 系列 \[22 (https://arxiv.org/html/2605.05561#bib.bib22)\] 中使用的推理强化学习信号。BitCal-TTS *不*训练验证器;相反,它使用轻量级在线代理和结构化尾部窗口作为与冻结量化权重兼容的*运行时*护栏。

#### 量化和可靠性

量化文献通常报告不同比特宽度下的困惑度或最终任务准确率 \[9 (https://arxiv.org/html/2605.05561#bib.bib9),13 (https://arxiv.org/html/2605.05561#bib.bib13),14 (https://arxiv.org/html/2605.05561#bib.bib14),10 (https://arxiv.org/html/2605.05561#bib.bib10)\]。互补的工作研究了语言模型是否“知道它们知道什么”以及如何检测不可靠的生成 \[11 (https://arxiv.org/html/2605.05561#bib.bib11),12 (https://arxiv.org/html/2605.05561#bib.bib12)\]。我们将这些可靠性问题与硬令牌预算下的*停止时间*决策联系起来,这是在延迟关键 API 和消费级 GPU 中遇到的制度。

#### 定位

BitCal-TTS 不是新的量化内核;它是一个推理时策略层。与重塑推理分布的 RL 训练后方法 \[21 (https://arxiv.org/html/2605.05561#bib.bib21),22 (https://arxiv.org/html/2605.05561#bib.bib22)\] 不同,我们保持权重冻结,仅修改 (i) 每个示例生成多少个令牌,以及 (ii) 低精度下如何处理分隔符触发的尾部。

## 4 方法:BitCal-TTS

### 4.1 概述

图 1 (https://arxiv.org/html/2605.05561#S4.F1) 总结了 BitCal-TTS 的端到端控制流。通过 Hugging Face Transformers \[1 (https://arxiv.org/html/2605.05561#bib.bib1)\] 服务的冻结量化因果 LM 生成 $k$ 个令牌的块。每块之后,控制器计算标量在线信号(令牌熵和两个稳定性代理),将其映射到比特条件置信度值,并应用有限状态停止策略,一旦 GSM8K 答案分隔符 `####` 出现,该策略会咨询标记感知的尾部规则。所选动作要么循环回 LM 以获取下一块,要么最终确定输出。

```
Prompt + chat template  -->  chat-formatted input x  -->  Quantized causal LM (Qwen2.5-Instruct, 4-bit NF4 weights with BF16 compute — Transformers + bitsandbytes)
                                                                    |
                                                                    v
                                                          Online signals (per chunk of k tokens)
                                                          H_t (entropy)
                                                          tau^{tr}_t (trace stability)
                                                          tau^{hid}_t (hidden-state stability)
                                                                    |
                                                                    v
                                                          Bit-conditioned calibrator
                                                          c_t = clip(c^{raw}_t * s(b), 0, 1),
                                                          s(b) in {0.85, 1.00, 1.05} for b<=4, 4<b<=8, b>8
                                                                    |
                                                                    v
                                                          Halting policy + marker-aware tail
                                                          thresholds theta_H, theta_c, theta_E; floor m; tail Delta(b) tokens after ####
                                                                    |
                                                                    v
                                                          Action a_t in {continue, stop, escalate}
                                                                    |
                                                          [continue] --> next chunk
                                                          [stop/escalate] --> reasoning trace + parsed final answer
```

**图 1:BitCal-TTS 的端到端控制流**。实心黑箭头描绘了每步管道:解码 $k$ 个令牌的块,计算在线信号,映射到比特条件置信度,并被具有标记感知尾部的停止策略消费。右侧的虚线反馈箭头表示 `continue` 动作将执行循环回语言模型;`stop` 和 `escalate` 最终确定输出。阴影块(橙色、绿色)构成了围绕未修改量化骨干网络的 BitCal-TTS 侧车。

### 4.2 问题设置

令 $x$ 为提示词,$M_b$ 为以名义权重精度 $b$ 服务的因果语言模型(我们的实验使用 $b=4$)。令 $B \in \mathbb{N}$ 表示新生成令牌的硬上限。解码在步骤 $t=1, 2, \ldots$ 进行;在每一步,引擎生成多达 $k$ 个令牌的块(默认 $k=16$),记录 logits 和可选的隐藏状态,并将解码文本追加到部分输出 $y_{\leq t}$。令 $T_t = \|y_{\leq t}\|$ 表示步骤 $t$ 后生成的令牌累积计数。我们比较三种控制器变体:

- • **Fixed**:始终生成直到预算 $B$ 耗尽或返回序列结束(EOS)。
- • **Adaptive**:应用第 4.5 节 (https://arxiv.org/html/2605.05561#S4.SS5) 的停止机制,但向校准器提供 16 比特的*有效*精度,因此置信度尺度相对于真正的 4 比特服务制度过于乐观。
- • **BitCal-TTS**:机制相同,但校准器使用真正的服务比特宽度 $b$,且后标记尾部使用 $\Delta(b)$(第 4.5 节 (https://arxiv.org/html/2605.05561#S4.SS5))。

### 4.3 在线信号

令 $\ell_t \in \mathbb{R}^{|\mathcal{V}|}$ 表示步骤 $t$ 结束时词汇表 $\mathcal{V}$ 上最终位置的 logits,并令 $p_t = \text{softmax}(\ell_t)$。我们使用以自然对数为单位的香农熵:
$$ H_t = - \sum_{v \in \mathcal{V}} p_t(v) \log p_t(v). \quad (1) $$

#### 推理轨迹稳定性

令 $(s_1, \ldots, s_t)$ 为迄今为止产生的文本块,$\tilde{s}_i$ 为去除空格的块。我们定义 \[0,1\] 范围内的轻量级稳定性分数,作为长度至少为 8 个字符且满足 $\tilde{s}_{i-1} = \tilde{s}_i$ 的连续对 $(\tilde{s}_{i-1}, \tilde{s}_i)$ 的比例:
$$ \tau^{tr}_t = \frac{\| \{ i \leq t : \|\tilde{s}_{i-1}\| \geq 8, \|\tilde{s}_i\| \geq 8, \tilde{s}_{i-1} = \tilde{s}_i \} \|}{\| \{ i \leq t : \|\tilde{s}_{i-1}\| \geq 8, \|\tilde{s}_i\| \geq 8 \} \|}. $$

相似文章

CALIBER:语言模型中推理前后的置信度校准

arXiv cs.CL

本文介绍了CALIBER,一种通过获取推理前后的置信度估计并匹配信息状态的监督目标来校准推理语言模型置信度的方法。它在多个基准测试上显著降低了期望校准误差(最多52.5%),并取得了强劲的Brier分数和AUROC。

代理式测试时扩展(GitHub 仓库)

TLDR AI

AutoTTS 是一个开源工具,它利用代理发现机制,自动为大型语言模型(LLM)寻找最优的测试时扩展策略,通过基于重放的评估显著降低 token 消耗和成本。

用 LLM 优化 LLM:面向测试时扩展的智能体发现方法

Hugging Face Daily Papers

本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。