@sudoingX: 我之前在 llama.cpp 上用 Q4 量化运行了 Ornith 新型 35B MoE 模型,4 bit,体积小,速度快,达到了约 78 tok/s。然后我更换了引擎……
摘要
一款名为 Ornith 的 35B MoE 智能编码模型,在单台 DGX Spark 上以 FP8 精度近乎无损运行,支持 300 万 token 上下文,速度约 36 tok/s,预计通过投机解码可进一步提升性能。
查看缓存全文
缓存时间: 2026/06/28 14:09
我原本在 llama.cpp 上跑 Ornith 新的 35B MoE,用的 Q4 量化、4 位,小巧又快速。跑到了大约 78 tok/s。然后我换了个推理引擎。
现在我在单台 DGX Spark 上,用 vLLM 跑同一个 MoE,精度是 FP8,近乎无损,基本是完整质量。而且这台机器还有余力支撑超过 300 万个 token 的上下文窗口。想想看:一个 35B 的智能编码模型,接近全精度,带着 300 万 token 的窗口,就放在桌面上。
在这个精度下,它稳定在约 36 tok/s,完全可用,而且这还只是未经优化的基线版本,还没有用上推测解码。
这就是人们还没注意到的重磅消息。本地 AI 已经悄然拥有了一款真正优秀的智能编码模型——近乎无损、超长上下文、单台机器就能跑,而且几乎没人留意到它。
下一步是推测解码,DGX Spark 会用它的闲置算力换取速度,token 数还会往上提。如果成功,你就在桌面上拥有一个接近全精度的 35B 编码模型,跑得飞快。这才是真正的考验。
Sudo su (@sudoingX): 在 DGX Spark 上跑 Ornith,看看它到底怎么样。
这是来自 @ornith_ / deepreinforce-ai 的新版智能编码模型,35B MoE(A3B,每个 token 约 3B 参数活跃)。我下载了 Q4_K_M gguf(约 20GB),接入了 Hermes Agent,单台 Spark 上预填充很快,约 78 tok/s,所以它
相似文章
@iotcoi:Qwen3.6-27B-FP8 + Dflash + DDTree,256k 上下文,10 个智能体,单颗 49W GB10 上峰值 200 tokens/s,平均解码 136 tokens/s
量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化,256k 上下文、10 智能体并发,峰值达 200 tok/s,平均 136 tok/s。
在老款GTX 1080(8GB显存,128k上下文)上,约30B的MoE模型达到24+ tok/s的推理速度
一位开发者展示了如何使用llama.cpp,通过MoE卸载和TurboQuant KV缓存量化技术,在老款GTX 1080(8GB显存)上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型,达到24+ tok/s的推理速度,并揭示了针对Gemma MTP投机解码的优化技巧。
在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
@sudoingX: 在dgx spark上运行Ornith,看看它到底是什么。这是一个来自@ornith_ / deepreinfor... 的新代理式编码模型。
Ornith-1.0是来自deepreinforce-ai的新一代开源代理式编码模型系列,采用强化学习训练,同时优化解决方案和脚手架。其35B MoE版本在编码基准测试中达到了最先进水平,并支持高效的单一GPU部署。
@no_stp_on_snek: 一款新的35B编码模型发布了(Ornith-1.0),一篇推广博客说它"碾压"了基准测试。我的第一直觉是这是benchmaxx……
一款新的35B编码模型Ornith-1.0与Qwen3.6-35B在自定义测试中进行了对比。用户发现Ornith-1.0在长期自主编码方面确实更强,能够抵抗不良上下文并完成大型任务,但它更加谨慎和冗长,有时会对简单请求过度限制。