直观感受每秒 X 个 token 的实际速度

Reddit r/LocalLLaMA 工具

摘要

作者介绍了一款基于 Web 的脚本,旨在通过模拟文本、代码和推理生成的速率,帮助用户直观理解本地大语言模型(LLM)部署中的每秒 token 数(tokens per second)性能。

我非常关注大家在本地部署大语言模型(LLM)方面的各种实践经历。模型的质量和规模固然重要,但性能同样关键。然而,单纯的数字往往无法很好地传达实际体验到的速度感。例如,如果有人说他们运行 Qwen 3.6-27B 模型的速度为 21 tokens/second,这到底快不快?10 tokens/second 是否意味着无法使用?我觉得这些数字虽然客观,但缺乏直观意义。于是,我编写了一个脚本,帮助我对这些客观数据获得一种主观的感知。该脚本支持文本、代码以及推理+代码的生成模拟。[https://mikeveerman.github.io/tokenspeed/](https://mikeveerman.github.io/tokenspeed/)
查看原文

相似文章