tail-latency

标签

Cards List
#tail-latency

认识爱丽丝。爱丽丝没耐心

Lobsters Hottest · 4天前 缓存

这篇博文解释了系统延迟和恢复时间测量中的检查悖论,说明了为什么客户经历的平均等待时间比服务指标显示的要长。文中包含一个交互式模拟,并强调了理解分布尾部的重要性。

0 人收藏 0 人点赞
#tail-latency

超越预测:面向尾延迟的LLM推理调度

arXiv cs.LG · 6天前 缓存

本文提出了一种面向LLM推理的分布感知、无预测调度框架,利用轻量级统计信号以软优先级提升替代显式长度预测。该方法联合优化调度与缓存感知的抢占,以降低尾部延迟,相比具备完美长度知识的SRPT,P99 TTLT最多降低35-50%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈