fp8-quantization

#fp8-quantization

@iotcoi：Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单颗 49W GB10 上峰值 200 tokens/s，平均解码 136 tokens/s

X AI KOLs Timeline ↗ · 2026-04-22 缓存

量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化，256k 上下文、10 智能体并发，峰值达 200 tok/s，平均 136 tok/s。

0 人收藏 0 人点赞

#fp8-quantization

Hugging Face Models Trending ↗ · 2026-04-21 缓存

阿里巴巴发布 Qwen3.6-27B-FP8，一款 27B 参数的 FP8 量化模型，在代理式编码与推理基准上表现强劲，现已上架 Hugging Face。

0 人收藏 0 人点赞