基于阈值的LLM推理独占批处理

arXiv cs.AI 2026/06/02 04:00 论文
llm-inference batching scheduling memory-bandwidth optimization gpu performance
摘要
本文分析了混合批处理与独占批处理在LLM推理中的权衡，表明最优选择取决于GPU内存带宽。提出了一种基于阈值的混合调度器，可在两种方法间动态切换，在带宽受限的GPU上实现高达41.9%的吞吐量提升。
arXiv:2606.00516v1 公告类型：新摘要：混合批处理（MB）——将预填充和解码交错在单个批次中——已成为大语言模型（LLM）推理的标准调度策略，因其能最大化计算和内存利用效率。然而，通过控制实验，我们发现预填充-解码干扰使得MB的每步边际成本高于纯解码。在高带宽H200（4.8 TB/s）上，只有当解码令牌超过批次的80%时才会出现这种情况；但在带宽受限的RTX PRO 6000（1.792 TB/s）上，这一阈值骤降至仅20%。因此，MB与独占批处理（EB）之间的最优选择根本上取决于GPU内存带宽、模型大小和工作负载组成。我们推导了EB-MB性能交叉的闭式条件，以及渐近最优的相位切换阈值和EB的内存安全批次大小。优化后的EB在带宽受限的GPU上可实现高达41.9%的吞吐量提升，而MB在具有更大模型的高带宽硬件上仍保持优势。我们的混合调度器EB+在线应用该条件，动态切换EB和MB，无需人工干预。在分布或并发性变化的非平稳流量下，EB+在每个设置中均实现最高或接近最高吞吐量，比MB最多提升36.4%。
查看原文
查看缓存全文
缓存时间: 2026/06/02 15:47
# 基于阈值的LLM推理独占批处理

来源：https://arxiv.org/html/2606.00516

###### 摘要

混合批处理（Mixed Batching, MB）——将预填充和解码交错在同一个批次中——已成为大语言模型（LLM）推理的标准调度策略，因其能高效最大化计算和内存利用率。然而，通过受控实验我们发现，预填充与解码之间的干扰会导致MB的每步边际成本高于纯解码。在高带宽H200（4.8 TB/s）上，仅当解码token占批次比例超过80%时才会出现此现象；但在带宽受限的RTX PRO 6000（1.792 TB/s）上，该阈值骤降至20%。因此，MB与独占批处理（Exclusive Batching, EB）之间的最优选择根本上取决于GPU内存带宽、模型大小和工作负载组成。我们推导出EB与MB性能交叉点的闭式条件，以及渐近最优的阶段切换阈值和EB的内存安全批大小。优化后的EB在带宽受限GPU上可提升高达41.9%的吞吐量，而MB在高带宽硬件上结合更大模型时仍保持优势。我们的混合调度器EB+在线应用此条件，无需人工干预即可动态切换EB与MB。在非平稳流量（分布或并发度变化）下，EB+在所有设置中均能达到最高或接近最高的吞吐量，相比MB提升高达36.4%。[代码](https://github.com/weifang231/eb-vllm)

## 1 引言

大语言模型（LLM）推理包含两个截然不同的阶段，其计算特性根本不同。*预填充*阶段并行处理输入token以填充键值（KV）缓存，因此受计算限制。*解码*阶段自回归生成token，需要重复访问KV缓存，因此受内存带宽限制 (Kwon et al., 2023; Pope et al., 2023; Wang et al., 2025)。这种二分法导致固有低效：解码期间GPU计算单元利用率不足，而预填充期间内存带宽未得到充分利用。两种主导调度范式应运而生。*混合批处理*（MB）(Agrawal et al., 2023) 将预填充和解码操作交错在同一批次中，同时利用GPU计算进行预填充和利用内存带宽进行解码。*独占批处理*（EB）将预填充和解码分开处理，通过调度规则交替阶段。在本工作中，我们研究一种*容量触发*策略：当有k个解码槽变为空闲时切换到预填充阶段，将此族策略记为EB(k)。MB已被广泛采用，包括vLLM (Kwon et al., 2023) 和SGLang (Zheng et al., 2024) 在内的主流推理引擎已转向MB作为默认调度模式。本文中，我们用v1表示vLLM v1（作为MB基线），用v0表示vLLM v0独占批处理调度器，在饱和状态下相当于EB(k=1)。

在单GPU部署的背景下，实践中仍存在一个有趣的二分法：西方推理引擎大多标准化为MB，而中国许多大规模生产系统仍然偏爱EB。一个可能的促成因素是硬件——中国市场上可用的GPU由于出口限制等原因，内存带宽预算更为紧张。这引出一个具体问题：内存带宽是否会根本性地改变EB与MB之间的权衡？如果是，每种策略应何时优先选择？为了探究这个问题，我们研究了不同批处理规则下处理token的边际成本。我们将处理单个批次中n_tok个token的迭代时间建模为 T_iter = α + β·n_tok，其中α是固定开销，β是每个token的边际成本。关键的是，α和β都取决于（1）硬件配置文件（例如，可用内存带宽）和（2）批次组成，我们用*解码比率* r := n_decode / n_tok 来表征批次中解码token的比例（r=1表示纯解码；0<r<1表示混合批次）。我们建立了一个两阶段模型：对于预填充阶段（r=0），有α=α_p, β=β_p；对于解码阶段（r=1），有α=α_d, β=β_d；对于混合批次，我们取β = β_mb(r)，它是解码token比例的凸函数（见第2节）。

## 2 混合批处理中的预填充-解码干扰

我们对预填充和解码阶段之间的干扰机制进行了系统研究。具体来说，我们测量了在各种解码比率r下，处理单个批次中n_tok个token的迭代时间。实验在两种GPU上进行：高带宽H200（4.8 TB/s）和带宽受限的RTX PRO 6000（1.792 TB/s）。我们使用Llama-3.1-8B模型，批大小固定为1024，输入长度均匀为512，输出长度均匀（解码阶段）。结果如图1所示。

（图1：迭代时间作为解码比率r的函数。左：H200，右：RTX PRO 6000。）

关键发现：在H200上，当r<0.8时，每token边际成本β_mb(r)大致恒定；当r超过0.8时，β_mb(r)急剧上升。在RTX PRO 6000上，当r>0.2时即可观察到明显的边际成本增加。这表明预填充-解码干扰导致混合批次的边际成本高于纯解码，并且干扰阈值强烈依赖于内存带宽。基于此，我们可以推导出EB与MB之间的性能交叉条件。

## 3 独占批处理的最优调度

### 3.1 问题形式化

考虑一个容量为N个并发请求的LLM推理系统。系统采用EB(k)策略：只要空闲解码槽的数量达到阈值k，就触发一个预填充阶段。我们寻求最优的(k, N)对，以在长期平均吞吐量TP_EB(k, N)最大化的同时，将峰值GPU内存使用保持在容量C以下。

形式化地，设X_max(k, N)为一个解码阶段内预填充和解码期间的最大总KV缓存大小。我们求解：

最大化 TP_EB(k, N)  (1)
满足 Pr(X_max(k, N) > C) ≤ ε  (2)

问题（1）和（2）的联合优化是复杂的。我们采用一种*解耦近似*方法，将联合优化分解为两个顺序步骤。首先，在渐近N→∞的设定下推导最优归一化阈值θ* = k*/N，其中k*是对固定N无内存约束（1）的最优解。我们证明θ*收敛到一个仅取决于输出分布且与N无关的极限θ_0（第3.2节）。其次，固定k = ⌊θ_0 N⌋，并确定满足（2）的最大批大小N*（第3.3节）。虽然这种解耦方法求解的是原始问题（1）的近似——意味着阈值θ_0渐近最优，不一定与精确的有限N解完全重合——但它提供了显著的分析优势。具体来说，该近似得出可处理的闭式表达式，揭示了LLM推理调度中的重要结构性见解，并支持高效的在线自适应。我们在第4.2节通过实验验证其近乎最优的性能。此外，为了推导解码阶段期望时长的闭式表达式E[T_d(k; N)]，我们应用*流体近似*。这里，随机解码完成过程被近似为系统规模趋于无穷时的确定性极限。在现代LLM服务典型的批次规模较大的情况下，这种近似非常精确。

### 3.2 最优切换阈值

直观地说，平衡固定预填充成本的摊销与空闲解码槽的浪费，根本上取决于在不久的将来出现额外完成的可能性有多大。因此，输出长度分布的*风险率* h(t) = f(t)/\bar{F}(t) 起着关键作用：更高的风险率意味着完成更快到达（有利于延迟切换），而更低的风险率使等待成本高昂（有利于提前切换）。我们首先分析恒定失效率（CFR）情况，该情况有闭式解，然后扩展到递增失效率（IFR）情况，后者能更好地捕捉真实LLM工作负载中运行时间更长的请求逐渐更可能完成的特点。

#### 3.2.1 CFR下的基本阈值

假设解码长度分布具有恒定风险率 h(t) = p_0（即几何输出长度），意味着 μ_O = 1/p_0。在流体近似下，解码阶段中缩放后的解码请求数量根据微分方程 \dot{n}(t) = -p_0 n(t) 减少，得到期望时长：
E[T_d(k; N)] = [β_d N θ - α_d ln(1-θ)] p_0^{-1}，其中 θ = k/N。
将 E[T_d(k; N)] 代入 (1)，我们得到EB下的吞吐量：
TP_EB(k, N) = [ (α_p - α_d μ_O ln(1-θ)) / k + β_EB^w (μ_L + μ_O) ]^{-1}，
其中 β_EB^w = (β_p μ_L + β_d μ_O) / (μ_L + μ_O) 表示预填充和解码边际成本的工作负载加权平均值。求解 k* = argmax_k TP_EB(k, N) 得到无约束问题（1）的最优切换阈值。以下命题确立了k*在批大小N→∞时的极限行为。

###### 命题3.1（CFR下的基本阈值）。在恒定风险率 h(t)=p_0 和解码阶段时长的流体近似下，极限最优归一化阈值 θ_0 := lim_{N→∞} θ* = lim_{N→∞} k*/N 是以下方程的唯一解：
θ_0 (1-θ_0)^{-1} + ln(1-θ_0) = p_0 α_p α_d^{-1}， (3)
该解仅取决于单一比率 p_0 α_p / α_d。特别地，它与N、μ_L以及每token成本 β_p, β_d 无关。为简洁起见，我们定义 ζ ≜ -ln(1-θ_0) > 0。（证明见附录B。）

该命题意味着在批次规模较大时，θ*可以精确近似为θ_0。为了便于第二步中解决容量约束问题，我们使用近似值 k_0* := ⌊θ_0 N⌋ 作为无约束第一步问题的实际解。这种参数依赖关系的简单性使得阈值非常实用：它可以从容易测量的三元组 (α_p, α_d, p_0) 一次性计算得到。第一步问题的最优吞吐量则为：
TP_EB(k_0*, N) = [ (α_p + α_d ζ μ_O) / k_0* + β_EB^w (μ_L + μ_O) ]^{-1}。 (4)

#### 3.2.2 推广到IFR

真实的LLM工作负载表现出IFR：随着请求生成更多token，它在不久的将来完成的可能性逐渐增加。在解码阶段内，这种加速的完成率降低了等待多一个空闲槽的额外壁钟时间成本。因此，延迟阶段切换的机会成本低于CFR下，使得系统可以在切换前有利地积累更多完成。简而言之，IFR工作负载支持比CFR基线*更高*的最优切换阈值。由于IFR的强度因工作负载而异，精确的最优极限θ*可能与基本CFR极限θ_0有显著差异，这促使我们进行解析修正。我们使用线性风险率 h(t) = p_0 + η t，其中 η > 0 来建模IFR。

###### 定理3.2（IFR阈值修正）。在线性风险率 h(t)=p_0+η t，η>0 下，最优阈值可展开为 θ* = θ_0 + Δθ + O(η^2)，其中θ_0是命题3.1中的CFR基本阈值，并且
Δθ = η(1-θ_0)^2 / (p_0^2 θ_0) * [ 底层 ( ζ ( θ_0/(1-θ_0) - ζ/2 ) )_持续时间效应 + 底层 ( (β_d N)/α_d (ζ - θ_0) )_每token成本效应 ]， (5)
其中 ζ = -ln(1-θ_0)。修正满足对所有 η>0 有 Δθ>0。（证明见附录C；经验验证见附录E.3。）

IFR修正揭示了基本情况下不存在两个结构特征。首先，与N无关的θ_0不同，Δθ显式依赖于 ρ = β_d N / α_d，因此对于具有高每token开销的大批次（ρ≫1），IFR效应会放大。其次，前置因子 η/p_0^2 自动将修正按不同IFR强度的工作负载进行缩放。

### 3.3 内存约束的批大小确定

给定θ_0并设 k = k_0* = ⌊θ_0 N⌋，我们现在确定满足内存约束（2）的最大批大小N*。内存随解码动态变化——生成token时增加，请求完成时突然下降——形成锯齿模式，其峰值决定了可行性。

###### 命题3.3（内存安全批大小）。在阈值θ_0的CFR模型下（即 k = ⌊θ_0 N⌋），满足 Pr(X_max(k, N) > C) ≤ ε 的最大批大小为
N* = ⌊ (C - ln(1/ε) / (p_0^2 μ_L)) / ( μ_L + ( (1-θ_0) / (θ_0 p_0) ) * ln(1/(1-θ_0)) ) ⌋。 (6)
（证明见附录D。）

这里，我们利用几何模型以获得可分析处理的解。解（6）也可作为IFR场景的保守界，因为IFR工作负载由于更可预测的完成模式而产生更低的峰值内存。

### 3.4 在线自适应算法

我们设计了一个在线控制器，通过从最近的请求估计工作负载参数 (p̂_0, η̂, μ̂_L) 并评估第3.2–3.3节的闭式表达式在当前估计值下的结果，来联合自适应 (k̂*, N̂*)。此处，帽子符号 (⋅̂) 表示未知参数的经验估计值。

在线估计。系统维护最近输出长度 (W_O) 和输入长度 (W_L) 的滑动窗口。从W_O中，我们估计步骤t处的经验风险率，即步骤t时恰好完成的请求数占在步骤t仍活跃的请求数的比例：ĥ(t) = #{O∈W_O: O=t} / #{O∈W_O: O≥t}，并通过加权最小二乘法在 t∈[1, t_{95}] 上拟合 ĥ(t) = p̂_0 + η̂ t，其中 t_{95} 是最近输出长度的第95百分位数。从W_L中，我们通过样本均值估计 μ̂_L。

阈值和批大小更新。给定 (p̂_0, η̂)，我们通过求解（3）计算 θ̂_0，并应用IFR修正（5）得到 θ̂* = θ̂_0 + Δθ̂。然后设 k̂* = ⌊θ̂* N̂_current⌋，其中 N̂_current 是当前批大小。接着，通过将 C, μ̂_L, 和 θ̂_0 代入（6）来确定更新的 N̂*。若 N̂* < N̂_current，则减小批大小；否则，在容量允许时逐渐增加。控制器定期（例如，每100个请求）执行更新。

该算法仅需维护两个滑动窗口和偶尔求解一个单变量方程（3），计算开销极低，适合在线部署。# 基于阈值的LLM推理独占批处理

来源：https://arxiv.org/html/2606.00516

###### 摘要

混合批处理（Mixed Batching, MB）——将预填充和解码交错在同一个批次中——已成为大语言模型（LLM）推理的标准调度策略，因其能高效最大化计算和内存利用率。然而，通过受控实验我们发现，预填充与解码之间的干扰会导致MB的每步边际成本高于纯解码。在高带宽H200（4.8 TB/s）上，仅当解码token占批次比例超过80%时才会出现此现象；但在带宽受限的RTX PRO 6000（1.792 TB/s）上，该阈值骤降至20%。因此，MB与独占批处理（Exclusive Batching, EB）之间的最优选择根本上取决于GPU内存带宽、模型大小和工作负载组成。我们推导出EB与MB性能交叉点的闭式条件，以及渐近最优的阶段切换阈值和EB的内存安全批大小。优化后的EB在带宽受限GPU上可提升高达41.9%的吞吐量，而MB在高带宽硬件上结合更大模型时仍保持优势。我们的混合调度器EB+在线应用此条件，无需人工干预即可动态切换EB与MB。在非平稳流量（分布或并发度变化）下，EB+在所有设置中均能达到最高或接近最高的吞吐量，相比MB提升高达36.4%。代码: https://github.com/weifang231/eb-vllm。

## 1 引言

大语言模型（LLM）推理包含两个截然不同的阶段，其计算特性根本不同。*预填充*阶段并行处理输入token以填充键值（KV）缓存，因此受计算限制。*解码*阶段自回归生成token，需要重复访问KV缓存，因此受内存带宽限制 (Kwon et al., 2023; Pope et al., 2023; Wang et al., 2025)。这种二分法导致固有低效：解码期间GPU计算单元利用率不足，而预填充期间内存带宽未得到充分利用。两种主导调度范式应运而生。*混合批处理*（MB）(Agrawal et al., 2023) 将预填充和解码操作交错在同一批次中，同时利用GPU计算进行预填充和利用内存带宽进行解码。*独占批处理*（EB）将预填充和解码分开处理，通过调度规则交替阶段。在本工作中，我们研究一种*容量触发*策略：当有k个解码槽变为空闲时切换到预填充阶段，将此族策略记为EB(k)。MB已被广泛采用，包括vLLM (Kwon et al., 2023) 和SGLang (Zheng et al., 2024) 在内的主流推理引擎已转向MB作为默认调度模式。本文中，我们用v1表示vLLM v1（作为MB基线），用v0表示vLLM v0独占批处理调度器，在饱和状态下相当于EB(k=1)。

在单GPU部署的背景下，实践中仍存在一个有趣的二分法：西方推理引擎大多标准化为MB，而中国许多大规模生产系统仍然偏爱EB。一个可能的促成因素是硬件——中国市场上可用的GPU由于出口限制等原因，内存带宽预算更为紧张。这引出一个具体问题：内存带宽是否会根本性地改变EB与MB之间的权衡？如果是，每种策略应何时优先选择？为了探究这个问题，我们研究了不同批处理规则下处理token的边际成本。我们将处理单个批次中n_tok个token的迭代时间建模为 T_iter = α + β·n_tok，其中α是固定开销，β是每个token的边际成本。关键的是，α和β都取决于（1）硬件配置文件（例如，可用内存带宽）和（2）批次组成，我们用*解码比率* r := n_decode / n_tok 来表征批次中解码token的比例（r=1表示纯解码；0<r<1表示混合批次）。我们建立了一个两阶段模型：对于预填充阶段（r=0），有α=α_p, β=β_p；对于解码阶段（r=1），有α=α_d, β=β_d；对于混合批次，我们取β = β_mb(r)，它是解码token比例的凸函数（见第2节）。

## 2 混合批处理中的预填充-解码干扰

我们对预填充和解码阶段之间的干扰机制进行了系统研究。具体来说，我们测量了在各种解码比率r下，处理单个批次中n_tok个token的迭代时间。实验在两种GPU上进行：高带宽H200（4.8 TB/s）和带宽受限的RTX PRO 6000（1.792 TB/s）。我们使用Llama-3.1-8B模型，批大小固定为1024，输入长度均匀为512，输出长度均匀（解码阶段）。结果如图1所示。

（图1：迭代时间作为解码比率r的函数。左：H200，右：RTX PRO 6000。）

关键发现：在H200上，当r<0.8时，每token边际成本β_mb(r)大致恒定；当r超过0.8时，β_mb(r)急剧上升。在RTX PRO 6000上，当r>0.2时即可观察到明显的边际成本增加。这表明预填充-解码干扰导致混合批次的边际成本高于纯解码，并且干扰阈值强烈依赖于内存带宽。基于此，我们可以推导出EB与MB之间的性能交叉条件。

## 3 独占批处理的最优调度

### 3.1 问题形式化

考虑一个容量为N个并发请求的LLM推理系统。系统采用EB(k)策略：只要空闲解码槽的数量达到阈值k，就触发一个预填充阶段。我们寻求最优的(k, N)对，以在长期平均吞吐量TP_EB(k, N)最大化的同时，将峰值GPU内存使用保持在容量C以下。

形式化地，设X_max(k, N)为一个解码阶段内预填充和解码期间的最大总KV缓存大小。我们求解：

最大化 TP_EB(k, N)  (1)
满足 Pr(X_max(k, N) > C) ≤ ε  (2)

问题（1）和（2）的联合优化是复杂的。我们采用一种*解耦近似*方法，将联合优化分解为两个顺序步骤。首先，在渐近N→∞的设定下推导最优归一化阈值θ* = k*/N，其中k*是对固定N无内存约束（1）的最优解。我们证明θ*收敛到一个仅取决于输出分布且与N无关的极限θ_0（第3.2节）。其次，固定k = ⌊θ_0 N⌋，并确定满足（2）的最大批大小N*（第3.3节）。虽然这种解耦方法求解的是原始问题（1）的近似——意味着阈值θ_0渐近最优，不一定与精确的有限N解完全重合——但它提供了显著的分析优势。具体来说，该近似得出可处理的闭式表达式，揭示了LLM推理调度中的重要结构性见解，并支持高效的在线自适应。我们在第4.2节通过实验验证其近乎最优的性能。此外，为了推导解码阶段期望时长的闭式表达式E[T_d(k; N)]，我们应用*流体近似*。这里，随机解码完成过程被近似为系统规模趋于无穷时的确定性极限。在现代LLM服务典型的批次规模较大的情况下，这种近似非常精确。

### 3.2 最优切换阈值

直观地说，平衡固定预填充成本的摊销与空闲解码槽的浪费，根本上取决于在不久的将来出现额外完成的可能性有多大。因此，输出长度分布的*风险率* h(t) = f(t)/\bar{F}(t) 起着关键作用：更高的风险率意味着完成更快到达（有利于延迟切换），而更低的风险率使等待成本高昂（有利于提前切换）。我们首先分析恒定失效率（CFR）情况，该情况有闭式解，然后扩展到递增失效率（IFR）情况，后者能更好地捕捉真实LLM工作负载中运行时间更长的请求逐渐更可能完成的特点。

#### 3.2.1 CFR下的基本阈值

假设解码长度分布具有恒定风险率 h(t) = p_0（即几何输出长度），意味着 μ_O = 1/p_0。在流体近似下，解码阶段中缩放后的解码请求数量根据微分方程 \dot{n}(t) = -p_0 n(t) 减少，得到期望时长：
E[T_d(k; N)] = [β_d N θ - α_d ln(1-θ)] p_0^{-1}，其中 θ = k/N。
将 E[T_d(k; N)] 代入 (1)，我们得到EB下的吞吐量：
TP_EB(k, N) = [ (α_p - α_d μ_O ln(1-θ)) / k + β_EB^w (μ_L + μ_O) ]^{-1}，
其中 β_EB^w = (β_p μ_L + β_d μ_O) / (μ_L + μ_O) 表示预填充和解码边际成本的工作负载加权平均值。求解 k* = argmax_k TP_EB(k, N) 得到无约束问题（1）的最优切换阈值。以下命题确立了k*在批大小N→∞时的极限行为。

###### 命题3.1（CFR下的基本阈值）。在恒定风险率 h(t)=p_0 和解码阶段时长的流体近似下，极限最优归一化阈值 θ_0 := lim_{N→∞} θ* = lim_{N→∞} k*/N 是以下方程的唯一解：
θ_0 (1-θ_0)^{-1} + ln(1-θ_0) = p_0 α_p α_d^{-1}， (3)
该解仅取决于单一比率 p_0 α_p / α_d。特别地，它与N、μ_L以及每token成本 β_p, β_d 无关。为简洁起见，我们定义 ζ ≜ -ln(1-θ_0) > 0。（证明见附录B。）

该命题意味着在批次规模较大时，θ*可以精确近似为θ_0。为了便于第二步中解决容量约束问题，我们使用近似值 k_0* := ⌊θ_0 N⌋ 作为无约束第一步问题的实际解。这种参数依赖关系的简单性使得阈值非常实用：它可以从容易测量的三元组 (α_p, α_d, p_0) 一次性计算得到。第一步问题的最优吞吐量则为：
TP_EB(k_0*, N) = [ (α_p + α_d ζ μ_O) / k_0* + β_EB^w (μ_L + μ_O) ]^{-1}。 (4)

#### 3.2.2 推广到IFR

真实的LLM工作负载表现出IFR：随着请求生成更多token，它在不久的将来完成的可能性逐渐增加。在解码阶段内，这种加速的完成率降低了等待多一个空闲槽的额外壁钟时间成本。因此，延迟阶段切换的机会成本低于CFR下，使得系统可以在切换前有利地积累更多完成。简而言之，IFR工作负载支持比CFR基线*更高*的最优切换阈值。由于IFR的强度因工作负载而异，精确的最优极限θ*可能与基本CFR极限θ_0有显著差异，这促使我们进行解析修正。我们使用线性风险率 h(t) = p_0 + η t，其中 η > 0 来建模IFR。

###### 定理3.2（IFR阈值修正）。在线性风险率 h(t)=p_0+η t，η>0 下，最优阈值可展开为 θ* = θ_0 + Δθ + O(η^2)，其中θ_0是命题3.1中的CFR基本阈值，并且
Δθ = η(1-θ_0)^2 / (p_0^2 θ_0) * [ 底层 ( ζ ( θ_0/(1-θ_0) - ζ/2 ) )_持续时间效应 + 底层 ( (β_d N)/α_d (ζ - θ_0) )_每token成本效应 ]， (5)
其中 ζ = -ln(1-θ_0)。修正满足对所有 η>0 有 Δθ>0。（证明见附录C；经验验证见附录E.3。）

IFR修正揭示了基本情况下不存在两个结构特征。首先，与N无关的θ_0不同，Δθ显式依赖于 ρ = β_d N / α_d，因此对于具有高每token开销的大批次（ρ≫1），IFR效应会放大。其次，前置因子 η/p_0^2 自动将修正按不同IFR强度的工作负载进行缩放。

### 3.3 内存约束的批大小确定

给定θ_0并设 k = k_0* = ⌊θ_0 N⌋，我们现在确定满足内存约束（2）的最大批大小N*。内存随解码动态变化——生成token时增加，请求完成时突然下降——形成锯齿模式，其峰值决定了可行性。

###### 命题3.3（内存安全批大小）。在阈值θ_0的CFR模型下（即 k = ⌊θ_0 N⌋），满足 Pr(X_max(k, N) > C) ≤ ε 的最大批大小为
N* = ⌊ (C - ln(1/ε) / (p_0^2 μ_L)) / ( μ_L + ( (1-θ_0) / (θ_0 p_0) ) * ln(1/(1-θ_0)) ) ⌋。 (6)
（证明见附录D。）

这里，我们利用几何模型以获得可分析处理的解。解（6）也可作为IFR场景的保守界，因为IFR工作负载由于更可预测的完成模式而产生更低的峰值内存。

### 3.4 在线自适应算法

我们设计了一个在线控制器，通过从最近的请求估计工作负载参数 (p̂_0, η̂, μ̂_L) 并评估第3.2–3.3节的闭式表达式在当前估计值下的结果，来联合自适应 (k̂*, N̂*)。此处，帽子符号 (⋅̂) 表示未知参数的经验估计值。

在线估计。系统维护最近输出长度 (W_O) 和输入长度 (W_L) 的滑动窗口。从W_O中，我们估计步骤t处的经验风险率，即步骤t时恰好完成的请求数占在步骤t仍活跃的请求数的比例：ĥ(t) = #{O∈W_O: O=t} / #{O∈W_O: O≥t}，并通过加权最小二乘法在 t∈[1, t_{95}] 上拟合 ĥ(t) = p̂_0 + η̂ t，其中 t_{95} 是最近输出长度的第95百分位数。从W_L中，我们通过样本均值估计 μ̂_L。

阈值和批大小更新。给定 (p̂_0, η̂)，我们通过求解（3）计算 θ̂_0，并应用IFR修正（5）得到 θ̂* = θ̂_0 + Δθ̂。然后设 k̂* = ⌊θ̂* N̂_current⌋，其中 N̂_current 是当前批大小。接着，通过将 C, μ̂_L, 和 θ̂_0 代入（6）来确定更新的 N̂*。若 N̂* < N̂_current，则减小批大小；否则，在容量允许时逐渐增加。控制器定期（例如，每100个请求）执行更新。

该算法仅需维护两个滑动窗口和偶尔求解一个单变量方程（3），计算开销极低，适合在线部署。
基于阈值的LLM推理独占批处理

相似文章

@pallavishekhar_: LLM中的连续批处理阅读：https://outcomeschool.com/blog/continuous-batching-in-llms…

在连续批处理中实现异步性

迈向多模型LLM调度器：关于卸载和抢占的实证洞见

受内存限制但不限于带宽：物理AI推理中批量1的LLM解码差距

超越预测：面向尾延迟的LLM推理调度

提交意见反馈