TIDE:基于I/O感知专家卸载的高效无损MoE扩散LLM推理

Hugging Face Daily Papers 论文

摘要

TIDE 是一种用于扩散大型语言模型的无损推理系统,它利用专家激活的时间稳定性来减少 I/O 开销和计算,在单 GPU-CPU 系统上实现高达 1.4-1.5 倍的吞吐量提升。

扩散大型语言模型(dLLM)已成为自回归(AR)模型的有力替代,通过并行块级解码提供更好的硬件利用率和双向上下文。然而,随着 dLLM 通过混合专家(MoE)架构不断扩展,它们在资源受限设备上的部署仍然是一个开放挑战。现有的基于 AR 的方法通常要么导致过高的 I/O 开销,要么导致显著的计算瓶颈。在这项工作中,我们提出了 TIDE,一种新颖的资源高效推理系统,利用块内扩散过程中专家激活的时间稳定性。具体来说,我们利用块内扩散过程中专家激活的时间稳定性,并引入了一种基于间隔的专家刷新策略,以 I/O 感知的方式更新专家放置。为了确保最佳性能,我们将推理调度建模为一个数学规划问题,求解最小化 I/O 流量和 CPU 计算的最优间隔。最重要的是,TIDE 是一种无损优化,无需模型训练,为 dLLM 推理提供了“免费午餐”加速。在单 GPU-CPU 系统上,我们证明 TIDE 在 LLaDA2.0-mini 和 LLaDA2.0-flash 模型上分别实现了相比先前基线高达 1.4 倍和 1.5 倍的吞吐量提升。
查看原文
查看缓存全文

缓存时间: 2026/05/22 02:36

论文页面 - TIDE: 高效且无损的 MoE 扩散大语言模型推理:面向 I/O 的专家卸载

来源:https://huggingface.co/papers/2605.20179

摘要

扩散大语言模型在资源受限设备上部署面临挑战,但名为 TIDE 的新型推理系统通过利用专家激活的时间稳定性并优化专家布局来减少 I/O 开销和计算,从而解决了这一问题。

扩散大语言模型(Diffusion Large Language Models)(dLLMs) 已成为自回归(AR)模型的有竞争力的替代方案,通过并行的块级解码提供更好的硬件利用率和双向上下文。然而,随着 dLLMs 继续使用混合专家(MoE)架构进行扩展,它们在资源受限设备上的部署仍然是一个开放的挑战。现有的基于 AR 的方法通常会导致高昂的 I/O 开销或显著的计算瓶颈。在这项工作中,我们提出了 TIDE,一种新颖的资源高效推理系统,它利用扩散过程中块内专家激活的时间稳定性。具体来说,我们利用扩散过程中块内专家激活的时间稳定性,并引入一种基于间隔的专家刷新策略,以I/O 感知的方式更新专家布局。为确保最佳性能,我们将推理调度建模为一个数学规划问题,求解最优间隔以最小化 I/O 流量和 CPU 计算。最重要的是,TIDE 是一种无损优化,无需模型训练,为 dLLM 推理提供了“免费午餐”加速。在单个 GPU-CPU 系统中,我们证明 TIDE 在 LLaDA2.0-mini 和 LLaDA2.0-flash 模型上分别实现了比先前基线高达 1.4 倍和 1.5 倍的吞吐量提升

查看 arXiv 页面 | PDF | 项目页面 | GitHub2 | 添加到收藏

在您的智能体中获取此论文:

hf papers read 2605.20179

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

引用此论文的数据集0

没有数据集链接此论文

引用此论文的空间0

没有空间链接此论文

包含此论文的集合0

没有集合包含此论文

将此论文添加到一个集合中,以便从本页面链接到它。

相似文章

基于时间冗余掩蔽和潜在修补的自适应令牌化 [R]

Reddit r/MachineLearning

本文提出了一种自适应视频令牌化方法,利用潜在空间中的时间冗余动态分配令牌,实现高效压缩,无需辅助网络。所提出的潜在修补变压器(Latent Inpainting Transformer)重建被丢弃的位置,相比ElasticTok-CV实现31倍加速,相比InfoTok实现2倍加速。

CRUMB:基于分布匹配上下文批处理的高效先验拟合网络推理

arXiv cs.LG

本文提出CRUMB,一种三阶段推理封装方法,通过聚类测试查询并利用最小化最大均值差异(MMD)选择分布匹配的训练子集,从而实现对大规模数据集的高效先验拟合网络推理。在51个TabArena数据集上,该方法在上下文选择方面达到了最先进水平。

DiffusionGemma:开发者指南 - Google Developers Blog

Reddit r/LocalLLaMA

DiffusionGemma 是 Google DeepMind 推出的全新实验模型,可在 256 令牌画布上实现并行生成,在 GPU 上令牌生成速度提升高达 4 倍。本开发者指南阐述了其架构、双向上下文,并提供了用于解决数独的微调配方。