@losterror501:使用2dgx sparks,单会话25 tok/s,8会话峰值152 tok/s。实在疯狂……

X AI KOLs Timeline 模型

摘要

宣布Qwable-v1,这是一个从Claude Fable-5蒸馏而来的开放权重模型,同时展示了在2dgx sparks硬件上的性能基准测试:单会话25 tok/s,8会话152 tok/s。

使用2dgx sparks,单会话25 tok/s,8会话峰值152 tok/s。实在疯狂……
查看原文
查看缓存全文

缓存时间: 2026/06/22 01:41

2dgx sparks 在1个会话下达到25 token/秒,而8个会话时峰值飙升至152 token/秒。简直离谱……

Taha ז (@lordx64): 发布 Qwable-v1——一个开放权重的 Qwen3.6-35B-A3B 模型,由 Anthropic 的 Mythos 类预览模型 Claude Fable-5 蒸馏而来。该模型曾短暂公开约4天(2026年6月9日至6月12日),后因美国出口管制指令在全球范围内被暂停使用。

Fable-5 是 Anthropic 的

相似文章

DGX Spark 智能体使用数据

Reddit r/LocalLLaMA

一位用户分享了在 NVIDIA DGX Spark 上使用 vLLM 运行 Qwen3.6 模型的基准测试结果和配置,重点关注包含并发请求和工具调用的智能体工作负载。