超越预测:面向尾延迟的LLM推理调度

arXiv cs.LG 论文

摘要

本文提出了一种面向LLM推理的分布感知、无预测调度框架,利用轻量级统计信号以软优先级提升替代显式长度预测。该方法联合优化调度与缓存感知的抢占,以降低尾部延迟,相比具备完美长度知识的SRPT,P99 TTLT最多降低35-50%。

arXiv:2606.18431v1 公告类型:新 摘要:LLM服务展现出极端的长度变异性,使得基于大小的调度在实践中困难重重。最近的LLM调度器使用预测的解码长度或排名来近似SJF/SRPT,并主要报告以均值为中心的指标,如TTFT和TBT。我们表明,这些基于预测的策略在分布偏移、突发到达和GPU内存压力下可能变得脆弱,并且即使拥有完美的解码长度知识,对主导用户体验的尾部延迟(P90-P99)的控制也有限。我们提出了一种分布感知、无预测的调度框架,用轻量级统计信号驱动的软优先级提升替代显式长度预测。我们的设计联合优化调度和缓存感知的抢占,以考虑跨工作负载混合的内存耦合解码动态。在生产环境和开源追踪数据上的评估表明,相比具备完美长度知识的SRPT,我们的方法将P99 TTLT降低了最高35-50%,并在各工作负载(包括推理密集型与聊天密集型任务)上将TTFT降低了34-47%。这些结果证明了在线LLM服务中优化尾部延迟的一种稳健替代方案。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:42

# 超越预测:面向尾部延迟的LLM推理调度
来源:https://arxiv.org/abs/2606.18431
查看 PDF (https://arxiv.org/pdf/2606.18431)

> 摘要:LLM服务呈现出极端的长度变化,使得基于大小的调度在实践中困难重重。近期的LLM调度器利用预测的解码长度或排名来近似SJF/SRPT,并主要报告均值类指标,如TTFT和TBT。我们表明,这些预测驱动的策略在分布偏移、突发到达和GPU内存压力下可能变得脆弱,同时即使是完美的解码长度知识,也对其主导用户体验的尾部延迟(P90-P99)的控制能力有限。我们引入了一种分布感知、无需预测的调度框架,该框架用轻量级统计信号驱动的优先级软提升替代了显式的长度预测。我们的设计协同优化了调度和缓存感知的抢占,以考虑跨工作负载混合的内存耦合解码动态。在生产环境和开源追踪上的评估表明,与具有完美长度知识的SRPT相比,我们的方法将P99 TTLT降低了高达35-50%,并且在包含推理密集型和聊天密集型任务的各种工作负载上将TTFT降低了34-47%。这些结果为在线LLM服务中优化尾部延迟提供了一种稳健的替代方案。

## 提交历史

来自:李悦颖 [查看邮箱 (https://arxiv.org/show-email/7e1d9899/2606.18431)] **\[v1]** 2026年6月16日星期二 19:25:37 UTC (465 KB)

相似文章

基于阈值的LLM推理独占批处理

arXiv cs.AI

本文分析了混合批处理与独占批处理在LLM推理中的权衡,表明最优选择取决于GPU内存带宽。提出了一种基于阈值的混合调度器,可在两种方法间动态切换,在带宽受限的GPU上实现高达41.9%的吞吐量提升。

基于预测驱动推理的统计可靠LLM排名评估

arXiv cs.LG

本文介绍了PRECISE,它是预测驱动推理(Prediction-Powered Inference)的一种扩展,将少量人工标注与大量LLM判断结合,以生成无偏且方差减小的排名评估指标(如Precision@K)估计。该方法在ESCI基准测试和实际生产环境的A/B测试中进行了验证,仅使用100个人工标注就正确识别出了最佳系统变体,并通过+407 bps的销售改进得到了确认。

迈向多模型LLM调度器:关于卸载和抢占的实证洞见

arXiv cs.AI

本文对在共享异构硬件上调度多个LLM进行了实证研究,重点关注CPU-GPU卸载和抢占的性能影响。研究发现,卸载会导致非线性的解码吞吐量下降,尤其是对于较小的模型,而抢占开销主要由模型状态重载主导,为未来多模型调度器的设计提供了指导。