基于阈值的LLM推理独占批处理
摘要
本文分析了混合批处理与独占批处理在LLM推理中的权衡,表明最优选择取决于GPU内存带宽。提出了一种基于阈值的混合调度器,可在两种方法间动态切换,在带宽受限的GPU上实现高达41.9%的吞吐量提升。
arXiv:2606.00516v1 公告类型:新
摘要:混合批处理(MB)——将预填充和解码交错在单个批次中——已成为大语言模型(LLM)推理的标准调度策略,因其能最大化计算和内存利用效率。然而,通过控制实验,我们发现预填充-解码干扰使得MB的每步边际成本高于纯解码。在高带宽H200(4.8 TB/s)上,只有当解码令牌超过批次的80%时才会出现这种情况;但在带宽受限的RTX PRO 6000(1.792 TB/s)上,这一阈值骤降至仅20%。因此,MB与独占批处理(EB)之间的最优选择根本上取决于GPU内存带宽、模型大小和工作负载组成。我们推导了EB-MB性能交叉的闭式条件,以及渐近最优的相位切换阈值和EB的内存安全批次大小。优化后的EB在带宽受限的GPU上可实现高达41.9%的吞吐量提升,而MB在具有更大模型的高带宽硬件上仍保持优势。我们的混合调度器EB+在线应用该条件,动态切换EB和MB,无需人工干预。在分布或并发性变化的非平稳流量下,EB+在每个设置中均实现最高或接近最高吞吐量,比MB最多提升36.4%。
查看缓存全文
缓存时间: 2026/06/02 15:47
# 基于阈值的LLM推理独占批处理
来源:https://arxiv.org/html/2606.00516
###### 摘要
混合批处理(Mixed Batching, MB)——将预填充和解码交错在同一个批次中——已成为大语言模型(LLM)推理的标准调度策略,因其能高效最大化计算和内存利用率。然而,通过受控实验我们发现,预填充与解码之间的干扰会导致MB的每步边际成本高于纯解码。在高带宽H200(4.8 TB/s)上,仅当解码token占批次比例超过80%时才会出现此现象;但在带宽受限的RTX PRO 6000(1.792 TB/s)上,该阈值骤降至20%。因此,MB与独占批处理(Exclusive Batching, EB)之间的最优选择根本上取决于GPU内存带宽、模型大小和工作负载组成。我们推导出EB与MB性能交叉点的闭式条件,以及渐近最优的阶段切换阈值和EB的内存安全批大小。优化后的EB在带宽受限GPU上可提升高达41.9%的吞吐量,而MB在高带宽硬件上结合更大模型时仍保持优势。我们的混合调度器EB+在线应用此条件,无需人工干预即可动态切换EB与MB。在非平稳流量(分布或并发度变化)下,EB+在所有设置中均能达到最高或接近最高的吞吐量,相比MB提升高达36.4%。[代码](https://github.com/weifang231/eb-vllm)
## 1 引言
大语言模型(LLM)推理包含两个截然不同的阶段,其计算特性根本不同。*预填充*阶段并行处理输入token以填充键值(KV)缓存,因此受计算限制。*解码*阶段自回归生成token,需要重复访问KV缓存,因此受内存带宽限制 (Kwon et al., 2023; Pope et al., 2023; Wang et al., 2025)。这种二分法导致固有低效:解码期间GPU计算单元利用率不足,而预填充期间内存带宽未得到充分利用。两种主导调度范式应运而生。*混合批处理*(MB)(Agrawal et al., 2023) 将预填充和解码操作交错在同一批次中,同时利用GPU计算进行预填充和利用内存带宽进行解码。*独占批处理*(EB)将预填充和解码分开处理,通过调度规则交替阶段。在本工作中,我们研究一种*容量触发*策略:当有k个解码槽变为空闲时切换到预填充阶段,将此族策略记为EB(k)。MB已被广泛采用,包括vLLM (Kwon et al., 2023) 和SGLang (Zheng et al., 2024) 在内的主流推理引擎已转向MB作为默认调度模式。本文中,我们用v1表示vLLM v1(作为MB基线),用v0表示vLLM v0独占批处理调度器,在饱和状态下相当于EB(k=1)。
在单GPU部署的背景下,实践中仍存在一个有趣的二分法:西方推理引擎大多标准化为MB,而中国许多大规模生产系统仍然偏爱EB。一个可能的促成因素是硬件——中国市场上可用的GPU由于出口限制等原因,内存带宽预算更为紧张。这引出一个具体问题:内存带宽是否会根本性地改变EB与MB之间的权衡?如果是,每种策略应何时优先选择?为了探究这个问题,我们研究了不同批处理规则下处理token的边际成本。我们将处理单个批次中n_tok个token的迭代时间建模为 T_iter = α + β·n_tok,其中α是固定开销,β是每个token的边际成本。关键的是,α和β都取决于(1)硬件配置文件(例如,可用内存带宽)和(2)批次组成,我们用*解码比率* r := n_decode / n_tok 来表征批次中解码token的比例(r=1表示纯解码;0<r<1表示混合批次)。我们建立了一个两阶段模型:对于预填充阶段(r=0),有α=α_p, β=β_p;对于解码阶段(r=1),有α=α_d, β=β_d;对于混合批次,我们取β = β_mb(r),它是解码token比例的凸函数(见第2节)。
## 2 混合批处理中的预填充-解码干扰
我们对预填充和解码阶段之间的干扰机制进行了系统研究。具体来说,我们测量了在各种解码比率r下,处理单个批次中n_tok个token的迭代时间。实验在两种GPU上进行:高带宽H200(4.8 TB/s)和带宽受限的RTX PRO 6000(1.792 TB/s)。我们使用Llama-3.1-8B模型,批大小固定为1024,输入长度均匀为512,输出长度均匀(解码阶段)。结果如图1所示。
(图1:迭代时间作为解码比率r的函数。左:H200,右:RTX PRO 6000。)
关键发现:在H200上,当r<0.8时,每token边际成本β_mb(r)大致恒定;当r超过0.8时,β_mb(r)急剧上升。在RTX PRO 6000上,当r>0.2时即可观察到明显的边际成本增加。这表明预填充-解码干扰导致混合批次的边际成本高于纯解码,并且干扰阈值强烈依赖于内存带宽。基于此,我们可以推导出EB与MB之间的性能交叉条件。
## 3 独占批处理的最优调度
### 3.1 问题形式化
考虑一个容量为N个并发请求的LLM推理系统。系统采用EB(k)策略:只要空闲解码槽的数量达到阈值k,就触发一个预填充阶段。我们寻求最优的(k, N)对,以在长期平均吞吐量TP_EB(k, N)最大化的同时,将峰值GPU内存使用保持在容量C以下。
形式化地,设X_max(k, N)为一个解码阶段内预填充和解码期间的最大总KV缓存大小。我们求解:
最大化 TP_EB(k, N) (1)
满足 Pr(X_max(k, N) > C) ≤ ε (2)
问题(1)和(2)的联合优化是复杂的。我们采用一种*解耦近似*方法,将联合优化分解为两个顺序步骤。首先,在渐近N→∞的设定下推导最优归一化阈值θ* = k*/N,其中k*是对固定N无内存约束(1)的最优解。我们证明θ*收敛到一个仅取决于输出分布且与N无关的极限θ_0(第3.2节)。其次,固定k = ⌊θ_0 N⌋,并确定满足(2)的最大批大小N*(第3.3节)。虽然这种解耦方法求解的是原始问题(1)的近似——意味着阈值θ_0渐近最优,不一定与精确的有限N解完全重合——但它提供了显著的分析优势。具体来说,该近似得出可处理的闭式表达式,揭示了LLM推理调度中的重要结构性见解,并支持高效的在线自适应。我们在第4.2节通过实验验证其近乎最优的性能。此外,为了推导解码阶段期望时长的闭式表达式E[T_d(k; N)],我们应用*流体近似*。这里,随机解码完成过程被近似为系统规模趋于无穷时的确定性极限。在现代LLM服务典型的批次规模较大的情况下,这种近似非常精确。
### 3.2 最优切换阈值
直观地说,平衡固定预填充成本的摊销与空闲解码槽的浪费,根本上取决于在不久的将来出现额外完成的可能性有多大。因此,输出长度分布的*风险率* h(t) = f(t)/\bar{F}(t) 起着关键作用:更高的风险率意味着完成更快到达(有利于延迟切换),而更低的风险率使等待成本高昂(有利于提前切换)。我们首先分析恒定失效率(CFR)情况,该情况有闭式解,然后扩展到递增失效率(IFR)情况,后者能更好地捕捉真实LLM工作负载中运行时间更长的请求逐渐更可能完成的特点。
#### 3.2.1 CFR下的基本阈值
假设解码长度分布具有恒定风险率 h(t) = p_0(即几何输出长度),意味着 μ_O = 1/p_0。在流体近似下,解码阶段中缩放后的解码请求数量根据微分方程 \dot{n}(t) = -p_0 n(t) 减少,得到期望时长:
E[T_d(k; N)] = [β_d N θ - α_d ln(1-θ)] p_0^{-1},其中 θ = k/N。
将 E[T_d(k; N)] 代入 (1),我们得到EB下的吞吐量:
TP_EB(k, N) = [ (α_p - α_d μ_O ln(1-θ)) / k + β_EB^w (μ_L + μ_O) ]^{-1},
其中 β_EB^w = (β_p μ_L + β_d μ_O) / (μ_L + μ_O) 表示预填充和解码边际成本的工作负载加权平均值。求解 k* = argmax_k TP_EB(k, N) 得到无约束问题(1)的最优切换阈值。以下命题确立了k*在批大小N→∞时的极限行为。
###### 命题3.1(CFR下的基本阈值)。在恒定风险率 h(t)=p_0 和解码阶段时长的流体近似下,极限最优归一化阈值 θ_0 := lim_{N→∞} θ* = lim_{N→∞} k*/N 是以下方程的唯一解:
θ_0 (1-θ_0)^{-1} + ln(1-θ_0) = p_0 α_p α_d^{-1}, (3)
该解仅取决于单一比率 p_0 α_p / α_d。特别地,它与N、μ_L以及每token成本 β_p, β_d 无关。为简洁起见,我们定义 ζ ≜ -ln(1-θ_0) > 0。(证明见附录B。)
该命题意味着在批次规模较大时,θ*可以精确近似为θ_0。为了便于第二步中解决容量约束问题,我们使用近似值 k_0* := ⌊θ_0 N⌋ 作为无约束第一步问题的实际解。这种参数依赖关系的简单性使得阈值非常实用:它可以从容易测量的三元组 (α_p, α_d, p_0) 一次性计算得到。第一步问题的最优吞吐量则为:
TP_EB(k_0*, N) = [ (α_p + α_d ζ μ_O) / k_0* + β_EB^w (μ_L + μ_O) ]^{-1}。 (4)
#### 3.2.2 推广到IFR
真实的LLM工作负载表现出IFR:随着请求生成更多token,它在不久的将来完成的可能性逐渐增加。在解码阶段内,这种加速的完成率降低了等待多一个空闲槽的额外壁钟时间成本。因此,延迟阶段切换的机会成本低于CFR下,使得系统可以在切换前有利地积累更多完成。简而言之,IFR工作负载支持比CFR基线*更高*的最优切换阈值。由于IFR的强度因工作负载而异,精确的最优极限θ*可能与基本CFR极限θ_0有显著差异,这促使我们进行解析修正。我们使用线性风险率 h(t) = p_0 + η t,其中 η > 0 来建模IFR。
###### 定理3.2(IFR阈值修正)。在线性风险率 h(t)=p_0+η t,η>0 下,最优阈值可展开为 θ* = θ_0 + Δθ + O(η^2),其中θ_0是命题3.1中的CFR基本阈值,并且
Δθ = η(1-θ_0)^2 / (p_0^2 θ_0) * [ 底层 ( ζ ( θ_0/(1-θ_0) - ζ/2 ) )_持续时间效应 + 底层 ( (β_d N)/α_d (ζ - θ_0) )_每token成本效应 ], (5)
其中 ζ = -ln(1-θ_0)。修正满足对所有 η>0 有 Δθ>0。(证明见附录C;经验验证见附录E.3。)
IFR修正揭示了基本情况下不存在两个结构特征。首先,与N无关的θ_0不同,Δθ显式依赖于 ρ = β_d N / α_d,因此对于具有高每token开销的大批次(ρ≫1),IFR效应会放大。其次,前置因子 η/p_0^2 自动将修正按不同IFR强度的工作负载进行缩放。
### 3.3 内存约束的批大小确定
给定θ_0并设 k = k_0* = ⌊θ_0 N⌋,我们现在确定满足内存约束(2)的最大批大小N*。内存随解码动态变化——生成token时增加,请求完成时突然下降——形成锯齿模式,其峰值决定了可行性。
###### 命题3.3(内存安全批大小)。在阈值θ_0的CFR模型下(即 k = ⌊θ_0 N⌋),满足 Pr(X_max(k, N) > C) ≤ ε 的最大批大小为
N* = ⌊ (C - ln(1/ε) / (p_0^2 μ_L)) / ( μ_L + ( (1-θ_0) / (θ_0 p_0) ) * ln(1/(1-θ_0)) ) ⌋。 (6)
(证明见附录D。)
这里,我们利用几何模型以获得可分析处理的解。解(6)也可作为IFR场景的保守界,因为IFR工作负载由于更可预测的完成模式而产生更低的峰值内存。
### 3.4 在线自适应算法
我们设计了一个在线控制器,通过从最近的请求估计工作负载参数 (p̂_0, η̂, μ̂_L) 并评估第3.2–3.3节的闭式表达式在当前估计值下的结果,来联合自适应 (k̂*, N̂*)。此处,帽子符号 (⋅̂) 表示未知参数的经验估计值。
在线估计。系统维护最近输出长度 (W_O) 和输入长度 (W_L) 的滑动窗口。从W_O中,我们估计步骤t处的经验风险率,即步骤t时恰好完成的请求数占在步骤t仍活跃的请求数的比例:ĥ(t) = #{O∈W_O: O=t} / #{O∈W_O: O≥t},并通过加权最小二乘法在 t∈[1, t_{95}] 上拟合 ĥ(t) = p̂_0 + η̂ t,其中 t_{95} 是最近输出长度的第95百分位数。从W_L中,我们通过样本均值估计 μ̂_L。
阈值和批大小更新。给定 (p̂_0, η̂),我们通过求解(3)计算 θ̂_0,并应用IFR修正(5)得到 θ̂* = θ̂_0 + Δθ̂。然后设 k̂* = ⌊θ̂* N̂_current⌋,其中 N̂_current 是当前批大小。接着,通过将 C, μ̂_L, 和 θ̂_0 代入(6)来确定更新的 N̂*。若 N̂* < N̂_current,则减小批大小;否则,在容量允许时逐渐增加。控制器定期(例如,每100个请求)执行更新。
该算法仅需维护两个滑动窗口和偶尔求解一个单变量方程(3),计算开销极低,适合在线部署。# 基于阈值的LLM推理独占批处理
来源:https://arxiv.org/html/2606.00516
###### 摘要
混合批处理(Mixed Batching, MB)——将预填充和解码交错在同一个批次中——已成为大语言模型(LLM)推理的标准调度策略,因其能高效最大化计算和内存利用率。然而,通过受控实验我们发现,预填充与解码之间的干扰会导致MB的每步边际成本高于纯解码。在高带宽H200(4.8 TB/s)上,仅当解码token占批次比例超过80%时才会出现此现象;但在带宽受限的RTX PRO 6000(1.792 TB/s)上,该阈值骤降至20%。因此,MB与独占批处理(Exclusive Batching, EB)之间的最优选择根本上取决于GPU内存带宽、模型大小和工作负载组成。我们推导出EB与MB性能交叉点的闭式条件,以及渐近最优的阶段切换阈值和EB的内存安全批大小。优化后的EB在带宽受限GPU上可提升高达41.9%的吞吐量,而MB在高带宽硬件上结合更大模型时仍保持优势。我们的混合调度器EB+在线应用此条件,无需人工干预即可动态切换EB与MB。在非平稳流量(分布或并发度变化)下,EB+在所有设置中均能达到最高或接近最高的吞吐量,相比MB提升高达36.4%。代码: https://github.com/weifang231/eb-vllm。
## 1 引言
大语言模型(LLM)推理包含两个截然不同的阶段,其计算特性根本不同。*预填充*阶段并行处理输入token以填充键值(KV)缓存,因此受计算限制。*解码*阶段自回归生成token,需要重复访问KV缓存,因此受内存带宽限制 (Kwon et al., 2023; Pope et al., 2023; Wang et al., 2025)。这种二分法导致固有低效:解码期间GPU计算单元利用率不足,而预填充期间内存带宽未得到充分利用。两种主导调度范式应运而生。*混合批处理*(MB)(Agrawal et al., 2023) 将预填充和解码操作交错在同一批次中,同时利用GPU计算进行预填充和利用内存带宽进行解码。*独占批处理*(EB)将预填充和解码分开处理,通过调度规则交替阶段。在本工作中,我们研究一种*容量触发*策略:当有k个解码槽变为空闲时切换到预填充阶段,将此族策略记为EB(k)。MB已被广泛采用,包括vLLM (Kwon et al., 2023) 和SGLang (Zheng et al., 2024) 在内的主流推理引擎已转向MB作为默认调度模式。本文中,我们用v1表示vLLM v1(作为MB基线),用v0表示vLLM v0独占批处理调度器,在饱和状态下相当于EB(k=1)。
在单GPU部署的背景下,实践中仍存在一个有趣的二分法:西方推理引擎大多标准化为MB,而中国许多大规模生产系统仍然偏爱EB。一个可能的促成因素是硬件——中国市场上可用的GPU由于出口限制等原因,内存带宽预算更为紧张。这引出一个具体问题:内存带宽是否会根本性地改变EB与MB之间的权衡?如果是,每种策略应何时优先选择?为了探究这个问题,我们研究了不同批处理规则下处理token的边际成本。我们将处理单个批次中n_tok个token的迭代时间建模为 T_iter = α + β·n_tok,其中α是固定开销,β是每个token的边际成本。关键的是,α和β都取决于(1)硬件配置文件(例如,可用内存带宽)和(2)批次组成,我们用*解码比率* r := n_decode / n_tok 来表征批次中解码token的比例(r=1表示纯解码;0<r<1表示混合批次)。我们建立了一个两阶段模型:对于预填充阶段(r=0),有α=α_p, β=β_p;对于解码阶段(r=1),有α=α_d, β=β_d;对于混合批次,我们取β = β_mb(r),它是解码token比例的凸函数(见第2节)。
## 2 混合批处理中的预填充-解码干扰
我们对预填充和解码阶段之间的干扰机制进行了系统研究。具体来说,我们测量了在各种解码比率r下,处理单个批次中n_tok个token的迭代时间。实验在两种GPU上进行:高带宽H200(4.8 TB/s)和带宽受限的RTX PRO 6000(1.792 TB/s)。我们使用Llama-3.1-8B模型,批大小固定为1024,输入长度均匀为512,输出长度均匀(解码阶段)。结果如图1所示。
(图1:迭代时间作为解码比率r的函数。左:H200,右:RTX PRO 6000。)
关键发现:在H200上,当r<0.8时,每token边际成本β_mb(r)大致恒定;当r超过0.8时,β_mb(r)急剧上升。在RTX PRO 6000上,当r>0.2时即可观察到明显的边际成本增加。这表明预填充-解码干扰导致混合批次的边际成本高于纯解码,并且干扰阈值强烈依赖于内存带宽。基于此,我们可以推导出EB与MB之间的性能交叉条件。
## 3 独占批处理的最优调度
### 3.1 问题形式化
考虑一个容量为N个并发请求的LLM推理系统。系统采用EB(k)策略:只要空闲解码槽的数量达到阈值k,就触发一个预填充阶段。我们寻求最优的(k, N)对,以在长期平均吞吐量TP_EB(k, N)最大化的同时,将峰值GPU内存使用保持在容量C以下。
形式化地,设X_max(k, N)为一个解码阶段内预填充和解码期间的最大总KV缓存大小。我们求解:
最大化 TP_EB(k, N) (1)
满足 Pr(X_max(k, N) > C) ≤ ε (2)
问题(1)和(2)的联合优化是复杂的。我们采用一种*解耦近似*方法,将联合优化分解为两个顺序步骤。首先,在渐近N→∞的设定下推导最优归一化阈值θ* = k*/N,其中k*是对固定N无内存约束(1)的最优解。我们证明θ*收敛到一个仅取决于输出分布且与N无关的极限θ_0(第3.2节)。其次,固定k = ⌊θ_0 N⌋,并确定满足(2)的最大批大小N*(第3.3节)。虽然这种解耦方法求解的是原始问题(1)的近似——意味着阈值θ_0渐近最优,不一定与精确的有限N解完全重合——但它提供了显著的分析优势。具体来说,该近似得出可处理的闭式表达式,揭示了LLM推理调度中的重要结构性见解,并支持高效的在线自适应。我们在第4.2节通过实验验证其近乎最优的性能。此外,为了推导解码阶段期望时长的闭式表达式E[T_d(k; N)],我们应用*流体近似*。这里,随机解码完成过程被近似为系统规模趋于无穷时的确定性极限。在现代LLM服务典型的批次规模较大的情况下,这种近似非常精确。
### 3.2 最优切换阈值
直观地说,平衡固定预填充成本的摊销与空闲解码槽的浪费,根本上取决于在不久的将来出现额外完成的可能性有多大。因此,输出长度分布的*风险率* h(t) = f(t)/\bar{F}(t) 起着关键作用:更高的风险率意味着完成更快到达(有利于延迟切换),而更低的风险率使等待成本高昂(有利于提前切换)。我们首先分析恒定失效率(CFR)情况,该情况有闭式解,然后扩展到递增失效率(IFR)情况,后者能更好地捕捉真实LLM工作负载中运行时间更长的请求逐渐更可能完成的特点。
#### 3.2.1 CFR下的基本阈值
假设解码长度分布具有恒定风险率 h(t) = p_0(即几何输出长度),意味着 μ_O = 1/p_0。在流体近似下,解码阶段中缩放后的解码请求数量根据微分方程 \dot{n}(t) = -p_0 n(t) 减少,得到期望时长:
E[T_d(k; N)] = [β_d N θ - α_d ln(1-θ)] p_0^{-1},其中 θ = k/N。
将 E[T_d(k; N)] 代入 (1),我们得到EB下的吞吐量:
TP_EB(k, N) = [ (α_p - α_d μ_O ln(1-θ)) / k + β_EB^w (μ_L + μ_O) ]^{-1},
其中 β_EB^w = (β_p μ_L + β_d μ_O) / (μ_L + μ_O) 表示预填充和解码边际成本的工作负载加权平均值。求解 k* = argmax_k TP_EB(k, N) 得到无约束问题(1)的最优切换阈值。以下命题确立了k*在批大小N→∞时的极限行为。
###### 命题3.1(CFR下的基本阈值)。在恒定风险率 h(t)=p_0 和解码阶段时长的流体近似下,极限最优归一化阈值 θ_0 := lim_{N→∞} θ* = lim_{N→∞} k*/N 是以下方程的唯一解:
θ_0 (1-θ_0)^{-1} + ln(1-θ_0) = p_0 α_p α_d^{-1}, (3)
该解仅取决于单一比率 p_0 α_p / α_d。特别地,它与N、μ_L以及每token成本 β_p, β_d 无关。为简洁起见,我们定义 ζ ≜ -ln(1-θ_0) > 0。(证明见附录B。)
该命题意味着在批次规模较大时,θ*可以精确近似为θ_0。为了便于第二步中解决容量约束问题,我们使用近似值 k_0* := ⌊θ_0 N⌋ 作为无约束第一步问题的实际解。这种参数依赖关系的简单性使得阈值非常实用:它可以从容易测量的三元组 (α_p, α_d, p_0) 一次性计算得到。第一步问题的最优吞吐量则为:
TP_EB(k_0*, N) = [ (α_p + α_d ζ μ_O) / k_0* + β_EB^w (μ_L + μ_O) ]^{-1}。 (4)
#### 3.2.2 推广到IFR
真实的LLM工作负载表现出IFR:随着请求生成更多token,它在不久的将来完成的可能性逐渐增加。在解码阶段内,这种加速的完成率降低了等待多一个空闲槽的额外壁钟时间成本。因此,延迟阶段切换的机会成本低于CFR下,使得系统可以在切换前有利地积累更多完成。简而言之,IFR工作负载支持比CFR基线*更高*的最优切换阈值。由于IFR的强度因工作负载而异,精确的最优极限θ*可能与基本CFR极限θ_0有显著差异,这促使我们进行解析修正。我们使用线性风险率 h(t) = p_0 + η t,其中 η > 0 来建模IFR。
###### 定理3.2(IFR阈值修正)。在线性风险率 h(t)=p_0+η t,η>0 下,最优阈值可展开为 θ* = θ_0 + Δθ + O(η^2),其中θ_0是命题3.1中的CFR基本阈值,并且
Δθ = η(1-θ_0)^2 / (p_0^2 θ_0) * [ 底层 ( ζ ( θ_0/(1-θ_0) - ζ/2 ) )_持续时间效应 + 底层 ( (β_d N)/α_d (ζ - θ_0) )_每token成本效应 ], (5)
其中 ζ = -ln(1-θ_0)。修正满足对所有 η>0 有 Δθ>0。(证明见附录C;经验验证见附录E.3。)
IFR修正揭示了基本情况下不存在两个结构特征。首先,与N无关的θ_0不同,Δθ显式依赖于 ρ = β_d N / α_d,因此对于具有高每token开销的大批次(ρ≫1),IFR效应会放大。其次,前置因子 η/p_0^2 自动将修正按不同IFR强度的工作负载进行缩放。
### 3.3 内存约束的批大小确定
给定θ_0并设 k = k_0* = ⌊θ_0 N⌋,我们现在确定满足内存约束(2)的最大批大小N*。内存随解码动态变化——生成token时增加,请求完成时突然下降——形成锯齿模式,其峰值决定了可行性。
###### 命题3.3(内存安全批大小)。在阈值θ_0的CFR模型下(即 k = ⌊θ_0 N⌋),满足 Pr(X_max(k, N) > C) ≤ ε 的最大批大小为
N* = ⌊ (C - ln(1/ε) / (p_0^2 μ_L)) / ( μ_L + ( (1-θ_0) / (θ_0 p_0) ) * ln(1/(1-θ_0)) ) ⌋。 (6)
(证明见附录D。)
这里,我们利用几何模型以获得可分析处理的解。解(6)也可作为IFR场景的保守界,因为IFR工作负载由于更可预测的完成模式而产生更低的峰值内存。
### 3.4 在线自适应算法
我们设计了一个在线控制器,通过从最近的请求估计工作负载参数 (p̂_0, η̂, μ̂_L) 并评估第3.2–3.3节的闭式表达式在当前估计值下的结果,来联合自适应 (k̂*, N̂*)。此处,帽子符号 (⋅̂) 表示未知参数的经验估计值。
在线估计。系统维护最近输出长度 (W_O) 和输入长度 (W_L) 的滑动窗口。从W_O中,我们估计步骤t处的经验风险率,即步骤t时恰好完成的请求数占在步骤t仍活跃的请求数的比例:ĥ(t) = #{O∈W_O: O=t} / #{O∈W_O: O≥t},并通过加权最小二乘法在 t∈[1, t_{95}] 上拟合 ĥ(t) = p̂_0 + η̂ t,其中 t_{95} 是最近输出长度的第95百分位数。从W_L中,我们通过样本均值估计 μ̂_L。
阈值和批大小更新。给定 (p̂_0, η̂),我们通过求解(3)计算 θ̂_0,并应用IFR修正(5)得到 θ̂* = θ̂_0 + Δθ̂。然后设 k̂* = ⌊θ̂* N̂_current⌋,其中 N̂_current 是当前批大小。接着,通过将 C, μ̂_L, 和 θ̂_0 代入(6)来确定更新的 N̂*。若 N̂* < N̂_current,则减小批大小;否则,在容量允许时逐渐增加。控制器定期(例如,每100个请求)执行更新。
该算法仅需维护两个滑动窗口和偶尔求解一个单变量方程(3),计算开销极低,适合在线部署。相似文章
在连续批处理中实现异步性
本文解释了如何为LLM推理实现异步连续批处理,将CPU批处理准备与GPU计算重叠,以最大化利用率并减少空闲时间。
迈向多模型LLM调度器:关于卸载和抢占的实证洞见
本文对在共享异构硬件上调度多个LLM进行了实证研究,重点关注CPU-GPU卸载和抢占的性能影响。研究发现,卸载会导致非线性的解码吞吐量下降,尤其是对于较小的模型,而抢占开销主要由模型状态重载主导,为未来多模型调度器的设计提供了指导。
受内存限制但不限于带宽:物理AI推理中批量1的LLM解码差距
本文研究了物理AI系统中批量1的LLM解码的性能差距,发现更快的内存带宽并没有按比例减少延迟,因为启动开销的存在,并且量化效率在不同硬件间差异显著。
ModeSwitch-LLM:一种轻量级阶段感知控制器,用于单GPU上的跨模式大语言模型推理
ModeSwitch-LLM 是一种轻量级控制器,将大语言模型推理请求路由到单GPU上合适的固定模式(例如FP16、量化、推测解码),在无需重新训练模型的情况下,实现高达2.10倍的延迟加速和51.7%的能耗降低。
@KL_Div:随着生成长度增加,LLM 占用的 GPU 内存持续攀升。能否在几乎不牺牲精度的前提下,让 GPU 内存占用保持恒定?
IceCache 通过“动态连续索引”(DCI)技术,在超长生成任务中将 GPU 内存占用压到恒定,且精度损失极小。