超越预测：面向尾延迟的LLM推理调度

arXiv cs.LG 2026/06/18 04:00 论文

scheduling llm-inference tail-latency distribution-aware preemption serving

摘要

本文提出了一种面向LLM推理的分布感知、无预测调度框架，利用轻量级统计信号以软优先级提升替代显式长度预测。该方法联合优化调度与缓存感知的抢占，以降低尾部延迟，相比具备完美长度知识的SRPT，P99 TTLT最多降低35-50%。

arXiv:2606.18431v1 公告类型：新摘要：LLM服务展现出极端的长度变异性，使得基于大小的调度在实践中困难重重。最近的LLM调度器使用预测的解码长度或排名来近似SJF/SRPT，并主要报告以均值为中心的指标，如TTFT和TBT。我们表明，这些基于预测的策略在分布偏移、突发到达和GPU内存压力下可能变得脆弱，并且即使拥有完美的解码长度知识，对主导用户体验的尾部延迟（P90-P99）的控制也有限。我们提出了一种分布感知、无预测的调度框架，用轻量级统计信号驱动的软优先级提升替代显式长度预测。我们的设计联合优化调度和缓存感知的抢占，以考虑跨工作负载混合的内存耦合解码动态。在生产环境和开源追踪数据上的评估表明，相比具备完美长度知识的SRPT，我们的方法将P99 TTLT降低了最高35-50%，并在各工作负载（包括推理密集型与聊天密集型任务）上将TTFT降低了34-47%。这些结果证明了在线LLM服务中优化尾部延迟的一种稳健替代方案。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:42

# 超越预测：面向尾部延迟的LLM推理调度
来源：https://arxiv.org/abs/2606.18431
查看 PDF (https://arxiv.org/pdf/2606.18431)

> 摘要：LLM服务呈现出极端的长度变化，使得基于大小的调度在实践中困难重重。近期的LLM调度器利用预测的解码长度或排名来近似SJF/SRPT，并主要报告均值类指标，如TTFT和TBT。我们表明，这些预测驱动的策略在分布偏移、突发到达和GPU内存压力下可能变得脆弱，同时即使是完美的解码长度知识，也对其主导用户体验的尾部延迟（P90-P99）的控制能力有限。我们引入了一种分布感知、无需预测的调度框架，该框架用轻量级统计信号驱动的优先级软提升替代了显式的长度预测。我们的设计协同优化了调度和缓存感知的抢占，以考虑跨工作负载混合的内存耦合解码动态。在生产环境和开源追踪上的评估表明，与具有完美长度知识的SRPT相比，我们的方法将P99 TTLT降低了高达35-50%，并且在包含推理密集型和聊天密集型任务的各种工作负载上将TTFT降低了34-47%。这些结果为在线LLM服务中优化尾部延迟提供了一种稳健的替代方案。

## 提交历史

来自：李悦颖 [查看邮箱 (https://arxiv.org/show-email/7e1d9899/2606.18431)] **\[v1]** 2026年6月16日星期二 19:25:37 UTC (465 KB)

超越预测：面向尾延迟的LLM推理调度

相似文章

基于阈值的LLM推理独占批处理

Prefilling-dLLM：扩散语言模型中长上下文推理的预测性预填充

基于预测驱动推理的统计可靠LLM排名评估

迈向多模型LLM调度器：关于卸载和抢占的实证洞见

CATS：面向内存受限 LLM 推理加速的级联自适应树猜测

提交意见反馈