fp8-quantization

标签

Cards List
#fp8-quantization

@iotcoi:Qwen3.6-27B-FP8 + Dflash + DDTree,256k 上下文,10 个智能体,单颗 49W GB10 上峰值 200 tokens/s,平均解码 136 tokens/s

X AI KOLs Timeline · 2026-04-22 缓存

量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化,256k 上下文、10 智能体并发,峰值达 200 tok/s,平均 136 tok/s。

0 人收藏 0 人点赞
#fp8-quantization

Qwen/Qwen3.6-27B-FP8

Hugging Face Models Trending · 2026-04-21 缓存

阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈