直观感受每秒 X 个 token 的实际速度
摘要
作者介绍了一款基于 Web 的脚本,旨在通过模拟文本、代码和推理生成的速率,帮助用户直观理解本地大语言模型(LLM)部署中的每秒 token 数(tokens per second)性能。
我非常关注大家在本地部署大语言模型(LLM)方面的各种实践经历。模型的质量和规模固然重要,但性能同样关键。然而,单纯的数字往往无法很好地传达实际体验到的速度感。例如,如果有人说他们运行 Qwen 3.6-27B 模型的速度为 21 tokens/second,这到底快不快?10 tokens/second 是否意味着无法使用?我觉得这些数字虽然客观,但缺乏直观意义。于是,我编写了一个脚本,帮助我对这些客观数据获得一种主观的感知。该脚本支持文本、代码以及推理+代码的生成模拟。[https://mikeveerman.github.io/tokenspeed/](https://mikeveerman.github.io/tokenspeed/)
相似文章
TokenSpeed:面向智能体工作负载的"光速"LLM推理引擎(5分钟阅读)
Lightseek发布TokenSpeed,一款面向智能体工作负载优化的高性能LLM推理引擎,采用编译器驱动的并行技术和先进的内核优化,相关技术已被vLLM采纳。
在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
@CuiMao: 你别说,你真别说,本地跑LM studio接一个Claude code,效果相当满意,5090开64k上下文,能跑200+token。
用户分享在本地使用LM Studio配合Claude Code的运行体验,称使用RTX 5090可实现64k上下文并达到每秒200+ token的生成速度,效果令人满意。
Qwen-3.6-27B + llamacpp 投机解码效果惊艳
Reddit 用户展示了 llamacpp 的投机解码功能将 Qwen-3.6-27B 的生成速度从 13.6 提升至 136.75 t/s,并分享了完整的命令参数和硬件配置。
@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快,在 MacBook Pr… 上的 token 生成速度提升约 40%
atomic.chat 优化了 Gemma 4 26B 在 LLaMA.cpp 中的推理性能,在 MacBook Pro M5 Max 上通过多 token 预测(MTP)推测解码实现了约 40% 的 token 生成提速。这对运行桌面应用、编程智能体和本地私有助手的本地 AI 用户来说是一个重大利好。