RTX 5090 搭配 Qwen3.6 能否达到 > 3,000 tok/s？欢迎来拍砖（open-dllm）

Reddit r/LocalLLaMA 2026/05/16 00:28 工具

diffusion llm inference throughput open-source qwen rtx-5090

摘要

Open-dLLM 将 Qwen3.6 适配为使用扩散式生成，在 RTX 5090 上对于短序列实现了超过 3,000 tok/s 的吞吐量，相关代码已在 GitHub 上发布。

背景——这些人：Fred Zhangzhi Peng、Shuibai Zhang、Alex Tong，他们致力于将自回归模型转换为扩散模型（这在较老的模型上已经可行）。[https://oval-shell-31c.notion.site/Open-dLLM-Open-Diffusion-Large-Language-Model-25e03bf6136480b7a4ebe3d53be9f68a](https://oval-shell-31c.notion.site/Open-dLLM-Open-Diffusion-Large-Language-Model-25e03bf6136480b7a4ebe3d53be9f68a) 我 fork 了代码库，并利用免费的 deepseek-flash / GLM5.1 在 opencode 上运行了一整晚，进行升级以支持 Qwen3.6——因为代码库已有超过 6 个月的历史。我还让 AI 整合了最新的 LDLM 论文 [https://arxiv.org/pdf/2605.07933v1](https://arxiv.org/pdf/2605.07933v1)。作者为 Viacheslav Meshchaninov1、Alexander Shabalin1、Egor Chimbulatov2、Nikita Gushchin3,4、Ilya Koziev5、Alexander Korotin3,4、Dmitry Vetrov1——他们花了三年时间使这篇论文成功运作。[https://x.com/Viacheslav91112/status/2054613430082957443?s=20](https://x.com/Viacheslav91112/status/2054613430082957443?s=20) 我要求它为 Qwen3.6 模型构建配置，并整合 LDLM 进行升级，同时在 "诚实" 假设下粗略估算输出数据——其中最主要的是序列长度，较长的输出会导致吞吐量下降。 # 推理吞吐量（Qwen3.6 LDLM，未经训练，RTX 5090 32GB） [](https://github.com/johndpope/open-dllm#inference-throughput-qwen36-ldlm-untrained-rtx-5090-32gb) |模型|维度|可训练参数|扩散步数|吞吐量| |:-|:-|:-|:-|:-| |Qwen3.6-35B-A3B|2048|1.39B|10|**3,238 tok/s**| |Qwen3.6-35B-A3B|2048|1.39B|4|**\\~6,500 tok/s**| |Qwen3.6-27B|5120|6.75B|10|**745 tok/s**| |Qwen3.6-27B|5120|6.75B|4|**\\~1,500 tok/s**| > # 假设与注意事项 [](https://github.com/johndpope/open-dllm#assumptions--caveats) > * **未训练的权重**：这些基准测试使用随机初始化的感知器/解码器/扩散头权重。训练后的模型吞吐量相同，但输出内容会更连贯。质量基准（如困惑度、HumanEval）将在训练完成后发布。 > * **编码器未参与推理**：冻结的 Qwen3.6 编码器在**生成过程中未被使用**——它仅用于训练（生成潜在目标）。在推理时，扩散头对随机噪声进行去噪，然后感知器解码器将潜在表示映射为 token。在基准测试前，编码器会被删除（`del autoencoder.token_encoder`）。 > * **序列长度 = 64**：基准测试使用较短的序列长度（64 个 token）。更长的序列会按比例降低吞吐量。4 步吞吐量数值是根据 10 步测量值线性外推得出的。 > * **批量大小 = 1**：仅支持单序列生成。对于 35B-A3B（dim=2048 易于适配 VRAM），吞吐量随批量大小近似线性增长；但对于 27B（dim=5120）则不那么明显。 > * **CPU 内存要求**：虽然编码器在推理时未被使用，但在训练期间**必须**容纳于系统内存中（27B 约 54GB，35B-A3B 在 bf16 精度下约 22GB）。Qwen3.6 架构使用了无法在 CPU 上运行的 Triton 内核（flash-linear-attention），因此训练时的编码器前向传播需要 GPU 卸载——建议使用多 GPU 设置进行训练。 > * **Qwen3.6 需要** `trust_remote_code=True`：该模型使用了标准 transformers 发行版中不包含的自定义架构代码（`Qwen3_5ForConditionalGeneration`）。请确保你的 `transformers` 版本支持它（>=4.54）。 > * **35B-A3B 是 MoE**：每个 token 仅激活 35B 参数中的 3B，因此其隐藏维度（2048）远小于 27B 密集模型（5120）。这就是为什么 LDLM 的可训练组件小了 5 倍且速度快了 4 倍。 > * **与自回归模型的比较并不完全对等**：扩散模型在 N 个扩散步骤中并行生成所有 token，而自回归模型一次只生成一个 token。对于短序列，“tok/s”指标有利于扩散模型，但不能反映输出质量——输出质量取决于训练收敛情况。代码在此处，并启用了 git issues：[https://github.com/scrya-com/Open-dLLM](https://github.com/scrya-com/Open-dLLM) wandb 训练指标：[https://wandb.ai/snoozie/Qwen3.6-35B-A3B-LDLM?nw=nwusersnoozie](https://wandb.ai/snoozie/Qwen3.6-35B-A3B-LDLM?nw=nwusersnoozie) 如果谁有闲置的 [vast.ai](http://vast.ai) 积分 / Azure 额度 / Google 云额度，请联系我。

查看原文

相似文章

双RTX 4060 Ti上Qwen3.6 q4xl达到125 tok/s，性价比惊人

Reddit r/LocalLLaMA

有用户报告称，在两张RTX 4060 Ti显卡上运行Qwen3.6 q4xl达到了每秒125个token，强调性价比出色，并想知道进一步优化是否能达到150 tok/s。

@seclink: 这家伙刚刚在一块单张 3090 显卡上，跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度，以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区，其发展速度简直如神速一般。…

X AI KOLs Following

A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.

RTX 5090 搭配 Qwen3.6 能否达到 > 3,000 tok/s？欢迎来拍砖（open-dllm）

相似文章

双RTX 4060 Ti上Qwen3.6 q4xl达到125 tok/s，性价比惊人

@seclink: 这家伙刚刚在一块单张 3090 显卡上，跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度，以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区，其发展速度简直如神速一般。…

@Snixtp: https://x.com/Snixtp/status/2055734339346768225

Qwen 3.6 27B AR->Diffusion - 在5090上的本地训练

Qwen 3.5 122B MoE OC 在单张 3090 上以 35 t/s 运行——完整本地堆栈解析

提交意见反馈