N tokens per second 到底有多快?
摘要
一个网页工具,让用户直观体验不同LLM token生成速率(例如5–800 tok/s)在代码、文本、推理和智能体模式下的表现,帮助内化基准测试中的性能数据。
暂无内容
查看缓存全文
缓存时间: 2026/05/20 17:28
# tokenspeed — 感受 LLM 每秒 token 数
来源: https://mikeveerman.github.io/tokenspeed/
每一个本地 LLM 基准测试都会报告吞吐量:
*"在 M3 上达到 47 tok/s,"*
*"在 4090 上达到 180 tok/s,"*
*"在 Groq 上达到 500 tok/s."*
除非你亲眼看着 token 以这些速率流式输出,否则很难将数字内化。这就是可视化工具的作用。
### 四种模式
- **code** — 语法高亮的伪代码,这是从 LLM 流式输出时最常见的内容。
- **text** — lorem ipsum 散文,适用于聊天/回答场景。
- **think** — 暗淡斜体的推理语句与代码交替出现,模拟推理模型边思考边表达的过程。
- **agent** — 工具调用与代码生成交替进行,中间带有处理停顿,模拟 AI 编码代理。
### 试试看
从默认的 30 开始,边读边看。然后尝试 1(5 tok/s — 树莓派级别的本地模型)、5(60 tok/s — 典型托管的 Claude 或 GPT)、7(200 tok/s — Groq 的水平)、9(800 tok/s — Cerebras 级别,此时瓶颈是你的眼睛)。
现在在相同速率下切换 `c` 和 `t`。差异显著——而且有意为之。
### 什么算一个 token
这近似于 BPE 风格的分词,而非任何特定供应商的编码器(`tiktoken`、Claude 的 tokenizer 等——这些细节本就存在分歧)。
短词通常算一个 token;长标识符会拆分成片段(`processUserInput` → `process`+`User`+`Input`);标点和运算符通常也算在内。
代码比散文更 token 密集,因此相同的 tok/s 可能因流式输出内容不同而产生截然不同的感觉。基准测试的数字是诚实的;实际感知效果因内容类型差异很大——这个工具正是为了揭示这一差距而存在。
英语散文平均约 1.3 个 token 对应一个单词,因此 30 tok/s ≈ 23 词/秒。
相似文章
直观感受每秒 X 个 token 的实际速度
作者介绍了一款基于 Web 的脚本,旨在通过模拟文本、代码和推理生成的速率,帮助用户直观理解本地大语言模型(LLM)部署中的每秒 token 数(tokens per second)性能。
10 tokens per second 到底有多快?
Simon Willison 探讨了 10 tokens per second 速度对于大型语言模型的实际意义,提供了关于这种速度感觉有多快以及其对可用性的影响的背景信息。
TokenSpeed:面向智能体工作负载的"光速"LLM推理引擎(5分钟阅读)
Lightseek发布TokenSpeed,一款面向智能体工作负载优化的高性能LLM推理引擎,采用编译器驱动的并行技术和先进的内核优化,相关技术已被vLLM采纳。
在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
@charles_irl: 为 LLM Engineer's Almanac 添加了一个有趣的小部件——一个“Token Timing Simulator”,让你直观感受 w…
在 LLM Engineer's Almanac 中添加了一个 Token 计时模拟器小部件,展示了 DFlash 技术实现约 1000 TPS 的效果,帮助用户直观理解基准测试性能数据。