RTX 5080 和 RTX 3090 配置:在 Qwen 3.6 27B Q8 上达到 80 令牌/秒
摘要
使用 RTX 5080 和 RTX 3090 GPU 的配置在 Qwen 3.6 27B Q8 模型上实现了每秒 80 个令牌。
暂无内容
相似文章
日本新模型性能堪比美国前沿模型
一款新的日本AI模型取得了与领先的美国前沿模型相当的性能,标志着重大进展。
对本地LLM如Qwen 3:0.6B进行微调以对问题分类,效果良好
一位开发者使用Unsloth框架对小型Qwen 3 0.6B模型进行微调,用于对家庭问题进行分类,仅用850个训练样本便取得了良好效果。
@losterror501:使用2dgx sparks,单会话25 tok/s,8会话峰值152 tok/s。实在疯狂……
宣布Qwable-v1,这是一个从Claude Fable-5蒸馏而来的开放权重模型,同时展示了在2dgx sparks硬件上的性能基准测试:单会话25 tok/s,8会话152 tok/s。
A100上Qwen3.6-27B-FP8运行缓慢
Qwen3.6-27B-FP8模型在A100 GPU上运行时性能较慢
Qwen 27B 用于规划,Qwen 35B-A3B 用于执行?
讨论使用 Qwen 27B 进行规划任务,使用 Qwen 35B-A3B 进行执行任务,提出了一种专门的模型方法。