@sudoingX: 我之前在 llama.cpp 上用 Q4 量化运行了 Ornith 新型 35B MoE 模型，4 bit，体积小，速度快，达到了约 78 tok/s。然后我更换了引擎……

X AI KOLs Timeline 2026/06/27 17:29 模型

open-source mixture-of-experts code-generation local-ai llm-inference vllm performance

摘要

一款名为 Ornith 的 35B MoE 智能编码模型，在单台 DGX Spark 上以 FP8 精度近乎无损运行，支持 300 万 token 上下文，速度约 36 tok/s，预计通过投机解码可进一步提升性能。

我之前在 llama.cpp 上用 Q4 量化运行了 Ornith 新型 35B MoE 模型，4 bit，体积小，速度快，达到了约 78 tok/s。然后我更换了引擎。现在我在 vLLM 中运行同一 MoE 模型，采用 FP8 精度，近乎无损，基本保持完整质量，仅用一台 DGX Spark。而且这台机器还能轻松支撑超过 300 万 token 的上下文。想象一下：一个 35B 的智能编码模型，近乎全精度，拥有 300 万 token 的窗口，就放在桌面上。在此精度下，速度约为 36 tok/s，完全可用，而这还是未优化的基线水平，尚未启用投机解码。这正是大家忽略的关键点。本地 AI 悄悄迎来了一款真正好用的智能编码模型，近乎无损，超大上下文，单机运行，却几乎无人察觉。接下来是投机解码，届时 Spark 将利用闲置算力换取速度，这个数字还会上升。如果实现，你就能在桌面上以真实速度运行近乎全质量的 35B 编码模型。这才是真正的考验。

查看原文

查看缓存全文

缓存时间: 2026/06/28 14:09

我原本在 llama.cpp 上跑 Ornith 新的 35B MoE，用的 Q4 量化、4 位，小巧又快速。跑到了大约 78 tok/s。然后我换了个推理引擎。

现在我在单台 DGX Spark 上，用 vLLM 跑同一个 MoE，精度是 FP8，近乎无损，基本是完整质量。而且这台机器还有余力支撑超过 300 万个 token 的上下文窗口。想想看：一个 35B 的智能编码模型，接近全精度，带着 300 万 token 的窗口，就放在桌面上。

在这个精度下，它稳定在约 36 tok/s，完全可用，而且这还只是未经优化的基线版本，还没有用上推测解码。

这就是人们还没注意到的重磅消息。本地 AI 已经悄然拥有了一款真正优秀的智能编码模型——近乎无损、超长上下文、单台机器就能跑，而且几乎没人留意到它。

下一步是推测解码，DGX Spark 会用它的闲置算力换取速度，token 数还会往上提。如果成功，你就在桌面上拥有一个接近全精度的 35B 编码模型，跑得飞快。这才是真正的考验。

Sudo su (@sudoingX): 在 DGX Spark 上跑 Ornith，看看它到底怎么样。

这是来自 @ornith_ / deepreinforce-ai 的新版智能编码模型，35B MoE（A3B，每个 token 约 3B 参数活跃）。我下载了 Q4_K_M gguf（约 20GB），接入了 Hermes Agent，单台 Spark 上预填充很快，约 78 tok/s，所以它

@sudoingX: 我之前在 llama.cpp 上用 Q4 量化运行了 Ornith 新型 35B MoE 模型，4 bit，体积小，速度快，达到了约 78 tok/s。然后我更换了引擎……

相似文章

@iotcoi：Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单颗 49W GB10 上峰值 200 tokens/s，平均解码 136 tokens/s

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

@sudoingX: 在dgx spark上运行Ornith，看看它到底是什么。这是一个来自@ornith_ / deepreinfor... 的新代理式编码模型。

@no_stp_on_snek: 一款新的35B编码模型发布了（Ornith-1.0），一篇推广博客说它"碾压"了基准测试。我的第一直觉是这是benchmaxx……

提交意见反馈