TIDE:基于I/O感知专家卸载的高效无损MoE扩散LLM推理
摘要
TIDE 是一种用于扩散大型语言模型的无损推理系统,它利用专家激活的时间稳定性来减少 I/O 开销和计算,在单 GPU-CPU 系统上实现高达 1.4-1.5 倍的吞吐量提升。
查看缓存全文
缓存时间: 2026/05/22 02:36
论文页面 - TIDE: 高效且无损的 MoE 扩散大语言模型推理:面向 I/O 的专家卸载
来源:https://huggingface.co/papers/2605.20179
摘要
扩散大语言模型在资源受限设备上部署面临挑战,但名为 TIDE 的新型推理系统通过利用专家激活的时间稳定性并优化专家布局来减少 I/O 开销和计算,从而解决了这一问题。
扩散大语言模型(Diffusion Large Language Models)(dLLMs) 已成为自回归(AR)模型的有竞争力的替代方案,通过并行的块级解码提供更好的硬件利用率和双向上下文。然而,随着 dLLMs 继续使用混合专家(MoE)架构进行扩展,它们在资源受限设备上的部署仍然是一个开放的挑战。现有的基于 AR 的方法通常会导致高昂的 I/O 开销或显著的计算瓶颈。在这项工作中,我们提出了 TIDE,一种新颖的资源高效推理系统,它利用扩散过程中块内专家激活的时间稳定性。具体来说,我们利用扩散过程中块内专家激活的时间稳定性,并引入一种基于间隔的专家刷新策略,以I/O 感知的方式更新专家布局。为确保最佳性能,我们将推理调度建模为一个数学规划问题,求解最优间隔以最小化 I/O 流量和 CPU 计算。最重要的是,TIDE 是一种无损优化,无需模型训练,为 dLLM 推理提供了“免费午餐”加速。在单个 GPU-CPU 系统中,我们证明 TIDE 在 LLaDA2.0-mini 和 LLaDA2.0-flash 模型上分别实现了比先前基线高达 1.4 倍和 1.5 倍的吞吐量提升。
查看 arXiv 页面 | PDF | 项目页面 | GitHub2 | 添加到收藏
在您的智能体中获取此论文:
hf papers read 2605.20179
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
引用此论文的数据集0
没有数据集链接此论文
引用此论文的空间0
没有空间链接此论文
包含此论文的集合0
没有集合包含此论文
将此论文添加到一个集合中,以便从本页面链接到它。
相似文章
@snowboat84: https://x.com/snowboat84/status/2065215177029787705
本文是AI工程全景系列的中篇,详细介绍了推理优化、模型瘦身(量化、蒸馏、剪枝、MoE)和投机解码等核心技术,综述了从硬件到工程栈的最新进展。
基于时间冗余掩蔽和潜在修补的自适应令牌化 [R]
本文提出了一种自适应视频令牌化方法,利用潜在空间中的时间冗余动态分配令牌,实现高效压缩,无需辅助网络。所提出的潜在修补变压器(Latent Inpainting Transformer)重建被丢弃的位置,相比ElasticTok-CV实现31倍加速,相比InfoTok实现2倍加速。
"How NVIDIA Built Nemotron 3 Open Model" by "Caleb Writes Code" x "Joey Conway"
NVIDIA发布了Nemotron 3开放模型,提供了Nano、Super、Ultra三种尺寸,通过混合Mamba Transformer、潜在MoE和多token预测等架构创新优化硬件效率,并采用Open MDW 1.1开放许可协议。
CRUMB:基于分布匹配上下文批处理的高效先验拟合网络推理
本文提出CRUMB,一种三阶段推理封装方法,通过聚类测试查询并利用最小化最大均值差异(MMD)选择分布匹配的训练子集,从而实现对大规模数据集的高效先验拟合网络推理。在51个TabArena数据集上,该方法在上下文选择方面达到了最先进水平。
DiffusionGemma:开发者指南 - Google Developers Blog
DiffusionGemma 是 Google DeepMind 推出的全新实验模型,可在 256 令牌画布上实现并行生成,在 GPU 上令牌生成速度提升高达 4 倍。本开发者指南阐述了其架构、双向上下文,并提供了用于解决数独的微调配方。