10 tokens per second 到底有多快?

Simon Willison's Blog 新闻

摘要

Simon Willison 探讨了 10 tokens per second 速度对于大型语言模型的实际意义,提供了关于这种速度感觉有多快以及其对可用性的影响的背景信息。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/20 18:38

# 10 tokens per second到底有多快? 来源:https://simonwillison.net/2026/May/20/tokens-per-second/ 本文是Simon Willison的**链接博文**,发布于 **2026年5月20日**(https://simonwillison.net/2026/May/20/) ai2028(https://simonwillison.net/tags/ai/)generative-ai1795(https://simonwillison.net/tags/generative-ai/)llms1761(https://simonwillison.net/tags/llms/) ### 月度简报 赞助我 **$10/月**,即可获得当月最重要LLM进展的邮件摘要。 花钱让我少给你发邮件! 赞助与订阅(https://github.com/sponsors/simonw/)

相似文章

N tokens per second 到底有多快?

Hacker News Top

一个网页工具,让用户直观体验不同LLM token生成速率(例如5–800 tok/s)在代码、文本、推理和智能体模式下的表现,帮助内化基准测试中的性能数据。

直观感受每秒 X 个 token 的实际速度

Reddit r/LocalLLaMA

作者介绍了一款基于 Web 的脚本,旨在通过模拟文本、代码和推理生成的速率,帮助用户直观理解本地大语言模型(LLM)部署中的每秒 token 数(tokens per second)性能。

Token 最大化

Reddit r/singularity

讨论在大型语言模型中最大化 Token 使用以提高效率和输出质量的策略与技术。

Compute Optimal Tokenization (2分钟阅读)

TLDR AI

本文通过训练近1300个模型,系统推导了压缩感知的神经缩放定律,证明了广泛使用的每参数20个词元的启发式方法是由特定分词器造成的。作者提出了基于字节的分词器无关缩放定律,为跨多样语言和模态的计算高效训练提供了新框架。