标签
使用 RTX 5080 和 RTX 3090 GPU 的配置在 Qwen 3.6 27B Q8 模型上实现了每秒 80 个令牌。
Simon Willison 探讨了 10 tokens per second 速度对于大型语言模型的实际意义,提供了关于这种速度感觉有多快以及其对可用性的影响的背景信息。