TIDE：基于I/O感知专家卸载的高效无损MoE扩散LLM推理

Hugging Face Daily Papers 2026/05/19 00:00 论文

摘要

TIDE 是一种用于扩散大型语言模型的无损推理系统，它利用专家激活的时间稳定性来减少 I/O 开销和计算，在单 GPU-CPU 系统上实现高达 1.4-1.5 倍的吞吐量提升。

扩散大型语言模型（dLLM）已成为自回归（AR）模型的有力替代，通过并行块级解码提供更好的硬件利用率和双向上下文。然而，随着 dLLM 通过混合专家（MoE）架构不断扩展，它们在资源受限设备上的部署仍然是一个开放挑战。现有的基于 AR 的方法通常要么导致过高的 I/O 开销，要么导致显著的计算瓶颈。在这项工作中，我们提出了 TIDE，一种新颖的资源高效推理系统，利用块内扩散过程中专家激活的时间稳定性。具体来说，我们利用块内扩散过程中专家激活的时间稳定性，并引入了一种基于间隔的专家刷新策略，以 I/O 感知的方式更新专家放置。为了确保最佳性能，我们将推理调度建模为一个数学规划问题，求解最小化 I/O 流量和 CPU 计算的最优间隔。最重要的是，TIDE 是一种无损优化，无需模型训练，为 dLLM 推理提供了“免费午餐”加速。在单 GPU-CPU 系统上，我们证明 TIDE 在 LLaDA2.0-mini 和 LLaDA2.0-flash 模型上分别实现了相比先前基线高达 1.4 倍和 1.5 倍的吞吐量提升。

查看原文

查看缓存全文

缓存时间: 2026/05/22 02:36

论文页面 - TIDE: 高效且无损的 MoE 扩散大语言模型推理：面向 I/O 的专家卸载

来源：https://huggingface.co/papers/2605.20179

摘要

扩散大语言模型在资源受限设备上部署面临挑战，但名为 TIDE 的新型推理系统通过利用专家激活的时间稳定性并优化专家布局来减少 I/O 开销和计算，从而解决了这一问题。

扩散大语言模型（Diffusion Large Language Models）(dLLMs) 已成为自回归（AR）模型的有竞争力的替代方案，通过并行的块级解码提供更好的硬件利用率和双向上下文。然而，随着 dLLMs 继续使用混合专家（MoE）架构进行扩展，它们在资源受限设备上的部署仍然是一个开放的挑战。现有的基于 AR 的方法通常会导致高昂的 I/O 开销或显著的计算瓶颈。在这项工作中，我们提出了 TIDE，一种新颖的资源高效推理系统，它利用扩散过程中块内专家激活的时间稳定性。具体来说，我们利用扩散过程中块内专家激活的时间稳定性，并引入一种基于间隔的专家刷新策略，以I/O 感知的方式更新专家布局。为确保最佳性能，我们将推理调度建模为一个数学规划问题，求解最优间隔以最小化 I/O 流量和 CPU 计算。最重要的是，TIDE 是一种无损优化，无需模型训练，为 dLLM 推理提供了“免费午餐”加速。在单个 GPU-CPU 系统中，我们证明 TIDE 在 LLaDA2.0-mini 和 LLaDA2.0-flash 模型上分别实现了比先前基线高达 1.4 倍和 1.5 倍的吞吐量提升。

查看 arXiv 页面 | PDF | 项目页面 | GitHub2 | 添加到收藏

在您的智能体中获取此论文：

hf papers read 2605.20179

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

引用此论文的数据集0

没有数据集链接此论文

引用此论文的空间0

没有空间链接此论文

包含此论文的集合0

没有集合包含此论文

将此论文添加到一个集合中，以便从本页面链接到它。

TIDE：基于I/O感知专家卸载的高效无损MoE扩散LLM推理

论文页面 - TIDE: 高效且无损的 MoE 扩散大语言模型推理：面向 I/O 的专家卸载

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的空间0

包含此论文的集合0

相似文章

@snowboat84: https://x.com/snowboat84/status/2065215177029787705

基于时间冗余掩蔽和潜在修补的自适应令牌化 [R]

"How NVIDIA Built Nemotron 3 Open Model" by "Caleb Writes Code" x "Joey Conway"

CRUMB：基于分布匹配上下文批处理的高效先验拟合网络推理

DiffusionGemma：开发者指南 - Google Developers Blog

提交意见反馈