@losterror501：使用2dgx sparks，单会话25 tok/s，8会话峰值152 tok/s。实在疯狂……

X AI KOLs Timeline 2026/06/21 20:47 模型

model-release open-weights distillation performance qwen claude

摘要

宣布Qwable-v1，这是一个从Claude Fable-5蒸馏而来的开放权重模型，同时展示了在2dgx sparks硬件上的性能基准测试：单会话25 tok/s，8会话152 tok/s。

使用2dgx sparks，单会话25 tok/s，8会话峰值152 tok/s。实在疯狂……

查看原文

查看缓存全文

缓存时间: 2026/06/22 01:41

2dgx sparks 在1个会话下达到25 token/秒，而8个会话时峰值飙升至152 token/秒。简直离谱……

Taha ז (@lordx64): 发布 Qwable-v1——一个开放权重的 Qwen3.6-35B-A3B 模型，由 Anthropic 的 Mythos 类预览模型 Claude Fable-5 蒸馏而来。该模型曾短暂公开约4天（2026年6月9日至6月12日），后因美国出口管制指令在全球范围内被暂停使用。

Fable-5 是 Anthropic 的

相似文章

@onusoz: 16路并行 Gemma-4-26B-A4B-NVFP4 运行，每路18输出 token/s，合计300 tok/s 🫪 一台配备128GB统一内存的DGX Spark…

X AI KOLs Timeline

@onusoz 展示了在单一 DGX Spark（128GB统一内存）上运行16个并行实例的 NVIDIA 量化版 Gemma-4-26B-A4B-NVFP4 模型，合计达到300 tok/s，展示高并发能力且未使用 flashinfer。

DGX Spark 智能体使用数据

Reddit r/LocalLLaMA

一位用户分享了在 NVIDIA DGX Spark 上使用 vLLM 运行 Qwen3.6 模型的基准测试结果和配置，重点关注包含并发请求和工具调用的智能体工作负载。

@TeksEdge：哇！全新开源计算机使用模型在单个 DGX Spark 上于 LLM 排行榜展现强劲本地性能！这…

X AI KOLs Timeline

H 公司发布了 Holo-3.1-35B-A3B-NVFP4，一款开源计算机使用模型，在单个 DGX Spark 节点上可实现每秒高达 195 个 token 的推理速度，性能超越 Qwen3.5-397B 和 Kimi-K2.5 等更大模型。

@antirez: DS4 正在 DGX Spark (GB10 / CUDA) 上运行，目前为私有分支。12 tokens/sec，此系统的内存带宽受限……

X AI KOLs Timeline

Antirez 报告了在 DGX Spark (GB10) 上对 DS4 推理进行的基准测试，指出生成速度为 12 tokens/sec，预填充性能较高，并计划在该代码库成熟后将其合并。

双 DGX Spark（华硕 GX10）MiniMax M2.7 实测

Reddit r/LocalLLaMA

用户实测两台华硕 GX10（DGX Spark）运行 MiniMax-M2.7-AWQ-4bit，每块仅约 100 W，生成速度 30–40 tokens/s，彻底替代嘈杂的多 GPU 机架。

相似文章

@onusoz: 16路并行 Gemma-4-26B-A4B-NVFP4 运行，每路18输出 token/s，合计300 tok/s 🫪 一台配备128GB统一内存的DGX Spark…

DGX Spark 智能体使用数据

@TeksEdge：哇！全新开源计算机使用模型在单个 DGX Spark 上于 LLM 排行榜展现强劲本地性能！这…

@antirez: DS4 正在 DGX Spark (GB10 / CUDA) 上运行，目前为私有分支。12 tokens/sec，此系统的内存带宽受限……

双 DGX Spark（华硕 GX10）MiniMax M2.7 实测

提交意见反馈