直观感受每秒 X 个 token 的实际速度

Reddit r/LocalLLaMA 2026/05/10 15:23 工具

摘要

作者介绍了一款基于 Web 的脚本，旨在通过模拟文本、代码和推理生成的速率，帮助用户直观理解本地大语言模型（LLM）部署中的每秒 token 数（tokens per second）性能。

我非常关注大家在本地部署大语言模型（LLM）方面的各种实践经历。模型的质量和规模固然重要，但性能同样关键。然而，单纯的数字往往无法很好地传达实际体验到的速度感。例如，如果有人说他们运行 Qwen 3.6-27B 模型的速度为 21 tokens/second，这到底快不快？10 tokens/second 是否意味着无法使用？我觉得这些数字虽然客观，但缺乏直观意义。于是，我编写了一个脚本，帮助我对这些客观数据获得一种主观的感知。该脚本支持文本、代码以及推理+代码的生成模拟。[https://mikeveerman.github.io/tokenspeed/](https://mikeveerman.github.io/tokenspeed/)

查看原文

直观感受每秒 X 个 token 的实际速度

相似文章

TokenSpeed：面向智能体工作负载的"光速"LLM推理引擎（5分钟阅读）

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

@CuiMao: 你别说，你真别说，本地跑LM studio接一个Claude code，效果相当满意，5090开64k上下文，能跑200+token。

Qwen-3.6-27B + llamacpp 投机解码效果惊艳

@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快，在 MacBook Pr… 上的 token 生成速度提升约 40%

提交意见反馈