标签
Modular发布了一篇博客文章,解释为什么传统的HTTP路由不适用于LLM推理工作负载。文章描述了他们如何在其分布式推理框架中处理有状态的异构GPU pod(包括KV缓存、专用的预填充/解码后端以及对话级路由),这些是传统无状态路由算法无法解决的。
# 并非放之四海而皆准:多语言大语言模型中从固定提示到可学习路由的演进 来源:[https://arxiv.org/html/2604.16937](https://arxiv.org/html/2604.16937) Wei-Chi Wu, Sheng-Lun Wei, Hen-Hsen Huang, Hsin-Hsi Chen α 台湾大学电脑科学与资讯工程学系,台湾 β 中央研究院资讯科学研究所,台湾 γ 台湾大学人工智能研究中心(AINTU),台湾 wcwu@c