N tokens per second 到底有多快？

Hacker News Top 2026/05/18 02:04 工具

llm-throughput token-speed developer-tool visualization local-llm performance

摘要

一个网页工具，让用户直观体验不同LLM token生成速率（例如5–800 tok/s）在代码、文本、推理和智能体模式下的表现，帮助内化基准测试中的性能数据。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/20 17:28

# tokenspeed — 感受 LLM 每秒 token 数来源: https://mikeveerman.github.io/tokenspeed/ 每一个本地 LLM 基准测试都会报告吞吐量: *"在 M3 上达到 47 tok/s,"* *"在 4090 上达到 180 tok/s,"* *"在 Groq 上达到 500 tok/s."* 除非你亲眼看着 token 以这些速率流式输出，否则很难将数字内化。这就是可视化工具的作用。 ### 四种模式 - **code** — 语法高亮的伪代码，这是从 LLM 流式输出时最常见的内容。 - **text** — lorem ipsum 散文，适用于聊天/回答场景。 - **think** — 暗淡斜体的推理语句与代码交替出现，模拟推理模型边思考边表达的过程。 - **agent** — 工具调用与代码生成交替进行，中间带有处理停顿，模拟 AI 编码代理。 ### 试试看从默认的 30 开始，边读边看。然后尝试 1（5 tok/s — 树莓派级别的本地模型）、5（60 tok/s — 典型托管的 Claude 或 GPT）、7（200 tok/s — Groq 的水平）、9（800 tok/s — Cerebras 级别，此时瓶颈是你的眼睛）。现在在相同速率下切换 `c` 和 `t`。差异显著——而且有意为之。 ### 什么算一个 token 这近似于 BPE 风格的分词，而非任何特定供应商的编码器（`tiktoken`、Claude 的 tokenizer 等——这些细节本就存在分歧）。短词通常算一个 token；长标识符会拆分成片段（`processUserInput` → `process`+`User`+`Input`）；标点和运算符通常也算在内。代码比散文更 token 密集，因此相同的 tok/s 可能因流式输出内容不同而产生截然不同的感觉。基准测试的数字是诚实的；实际感知效果因内容类型差异很大——这个工具正是为了揭示这一差距而存在。英语散文平均约 1.3 个 token 对应一个单词，因此 30 tok/s ≈ 23 词/秒。

N tokens per second 到底有多快？

相似文章

直观感受每秒 X 个 token 的实际速度

10 tokens per second 到底有多快？

TokenSpeed：面向智能体工作负载的"光速"LLM推理引擎（5分钟阅读）

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

@charles_irl: 为 LLM Engineer's Almanac 添加了一个有趣的小部件——一个“Token Timing Simulator”，让你直观感受 w…

提交意见反馈