@losterror501:使用2dgx sparks,单会话25 tok/s,8会话峰值152 tok/s。实在疯狂……
摘要
宣布Qwable-v1,这是一个从Claude Fable-5蒸馏而来的开放权重模型,同时展示了在2dgx sparks硬件上的性能基准测试:单会话25 tok/s,8会话152 tok/s。
查看缓存全文
缓存时间: 2026/06/22 01:41
2dgx sparks 在1个会话下达到25 token/秒,而8个会话时峰值飙升至152 token/秒。简直离谱……
Taha ז (@lordx64): 发布 Qwable-v1——一个开放权重的 Qwen3.6-35B-A3B 模型,由 Anthropic 的 Mythos 类预览模型 Claude Fable-5 蒸馏而来。该模型曾短暂公开约4天(2026年6月9日至6月12日),后因美国出口管制指令在全球范围内被暂停使用。
Fable-5 是 Anthropic 的
相似文章
@onusoz: 16路并行 Gemma-4-26B-A4B-NVFP4 运行,每路18输出 token/s,合计300 tok/s 一台配备128GB统一内存的DGX Spark…
@onusoz 展示了在单一 DGX Spark(128GB统一内存)上运行16个并行实例的 NVIDIA 量化版 Gemma-4-26B-A4B-NVFP4 模型,合计达到300 tok/s,展示高并发能力且未使用 flashinfer。
DGX Spark 智能体使用数据
一位用户分享了在 NVIDIA DGX Spark 上使用 vLLM 运行 Qwen3.6 模型的基准测试结果和配置,重点关注包含并发请求和工具调用的智能体工作负载。
@TeksEdge:哇!全新开源计算机使用模型在单个 DGX Spark 上于 LLM 排行榜展现强劲本地性能!这…
H 公司发布了 Holo-3.1-35B-A3B-NVFP4,一款开源计算机使用模型,在单个 DGX Spark 节点上可实现每秒高达 195 个 token 的推理速度,性能超越 Qwen3.5-397B 和 Kimi-K2.5 等更大模型。
@antirez: DS4 正在 DGX Spark (GB10 / CUDA) 上运行,目前为私有分支。12 tokens/sec,此系统的内存带宽受限……
Antirez 报告了在 DGX Spark (GB10) 上对 DS4 推理进行的基准测试,指出生成速度为 12 tokens/sec,预填充性能较高,并计划在该代码库成熟后将其合并。
双 DGX Spark(华硕 GX10)MiniMax M2.7 实测
用户实测两台华硕 GX10(DGX Spark)运行 MiniMax-M2.7-AWQ-4bit,每块仅约 100 W,生成速度 30–40 tokens/s,彻底替代嘈杂的多 GPU 机架。