10 tokens per second 到底有多快?
摘要
Simon Willison 探讨了 10 tokens per second 速度对于大型语言模型的实际意义,提供了关于这种速度感觉有多快以及其对可用性的影响的背景信息。
暂无内容
查看缓存全文
缓存时间: 2026/05/20 18:38
# 10 tokens per second到底有多快?
来源:https://simonwillison.net/2026/May/20/tokens-per-second/
本文是Simon Willison的**链接博文**,发布于 **2026年5月20日**(https://simonwillison.net/2026/May/20/)
ai2028(https://simonwillison.net/tags/ai/)generative-ai1795(https://simonwillison.net/tags/generative-ai/)llms1761(https://simonwillison.net/tags/llms/)
### 月度简报
赞助我 **$10/月**,即可获得当月最重要LLM进展的邮件摘要。
花钱让我少给你发邮件!
赞助与订阅(https://github.com/sponsors/simonw/)
相似文章
N tokens per second 到底有多快?
一个网页工具,让用户直观体验不同LLM token生成速率(例如5–800 tok/s)在代码、文本、推理和智能体模式下的表现,帮助内化基准测试中的性能数据。
直观感受每秒 X 个 token 的实际速度
作者介绍了一款基于 Web 的脚本,旨在通过模拟文本、代码和推理生成的速率,帮助用户直观理解本地大语言模型(LLM)部署中的每秒 token 数(tokens per second)性能。
Token 最大化
讨论在大型语言模型中最大化 Token 使用以提高效率和输出质量的策略与技术。
Compute Optimal Tokenization (2分钟阅读)
本文通过训练近1300个模型,系统推导了压缩感知的神经缩放定律,证明了广泛使用的每参数20个词元的启发式方法是由特定分词器造成的。作者提出了基于字节的分词器无关缩放定律,为跨多样语言和模态的计算高效训练提供了新框架。
@RedHat_AI: 145 tokens每秒。加入推测解码。424 tokens每秒。同一模型。同一H100。输出质量零变化…
Red Hat 演示了使用推测解码可以将 LLM 推理速度从 145 tokens/秒提升至 424 tokens/秒,且使用相同 H100 硬件,质量无损失,凸显了面向生产服务的一项重要优化。