N tokens per second 到底有多快?

Hacker News Top 工具

摘要

一个网页工具,让用户直观体验不同LLM token生成速率(例如5–800 tok/s)在代码、文本、推理和智能体模式下的表现,帮助内化基准测试中的性能数据。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/20 17:28

# tokenspeed — 感受 LLM 每秒 token 数 来源: https://mikeveerman.github.io/tokenspeed/ 每一个本地 LLM 基准测试都会报告吞吐量: *"在 M3 上达到 47 tok/s,"* *"在 4090 上达到 180 tok/s,"* *"在 Groq 上达到 500 tok/s."* 除非你亲眼看着 token 以这些速率流式输出,否则很难将数字内化。这就是可视化工具的作用。 ### 四种模式 - **code** — 语法高亮的伪代码,这是从 LLM 流式输出时最常见的内容。 - **text** — lorem ipsum 散文,适用于聊天/回答场景。 - **think** — 暗淡斜体的推理语句与代码交替出现,模拟推理模型边思考边表达的过程。 - **agent** — 工具调用与代码生成交替进行,中间带有处理停顿,模拟 AI 编码代理。 ### 试试看 从默认的 30 开始,边读边看。然后尝试 1(5 tok/s — 树莓派级别的本地模型)、5(60 tok/s — 典型托管的 Claude 或 GPT)、7(200 tok/s — Groq 的水平)、9(800 tok/s — Cerebras 级别,此时瓶颈是你的眼睛)。 现在在相同速率下切换 `c` 和 `t`。差异显著——而且有意为之。 ### 什么算一个 token 这近似于 BPE 风格的分词,而非任何特定供应商的编码器(`tiktoken`、Claude 的 tokenizer 等——这些细节本就存在分歧)。 短词通常算一个 token;长标识符会拆分成片段(`processUserInput` → `process`+`User`+`Input`);标点和运算符通常也算在内。 代码比散文更 token 密集,因此相同的 tok/s 可能因流式输出内容不同而产生截然不同的感觉。基准测试的数字是诚实的;实际感知效果因内容类型差异很大——这个工具正是为了揭示这一差距而存在。 英语散文平均约 1.3 个 token 对应一个单词,因此 30 tok/s ≈ 23 词/秒。

相似文章

直观感受每秒 X 个 token 的实际速度

Reddit r/LocalLLaMA

作者介绍了一款基于 Web 的脚本,旨在通过模拟文本、代码和推理生成的速率,帮助用户直观理解本地大语言模型(LLM)部署中的每秒 token 数(tokens per second)性能。

10 tokens per second 到底有多快?

Simon Willison's Blog

Simon Willison 探讨了 10 tokens per second 速度对于大型语言模型的实际意义,提供了关于这种速度感觉有多快以及其对可用性的影响的背景信息。