@charles_irl: 为 LLM Engineer's Almanac 添加了一个有趣的小部件——一个“Token Timing Simulator”,让你直观感受 w…
摘要
在 LLM Engineer's Almanac 中添加了一个 Token 计时模拟器小部件,展示了 DFlash 技术实现约 1000 TPS 的效果,帮助用户直观理解基准测试性能数据。
查看缓存全文
缓存时间: 2026/05/15 19:07
给 LLM 工程师年鉴(LLM Engineer’s Almanac)添加了一个有趣的小工具 —— “令牌计时模拟器”(Token Timing Simulator),让你能直观感受基准性能数据的含义。这是 @dcw02 与 @zhijianliu 的最新成果,结合了 @sgl_project 的 DFlash 技术 —— 约 1k TPS! https://modal.com/llm-almanac/token-timing-simulator…
LLM 工程师年鉴 - 令牌计时模拟器
来源:https://modal.com/llm-almanac/token-timing-simulator 输入令牌 输出令牌
相似文章
直观感受每秒 X 个 token 的实际速度
作者介绍了一款基于 Web 的脚本,旨在通过模拟文本、代码和推理生成的速率,帮助用户直观理解本地大语言模型(LLM)部署中的每秒 token 数(tokens per second)性能。
Qwen-3.6-27B + llamacpp 投机解码效果惊艳
Reddit 用户展示了 llamacpp 的投机解码功能将 Qwen-3.6-27B 的生成速度从 13.6 提升至 136.75 t/s,并分享了完整的命令参数和硬件配置。
TokenSpeed:面向智能体工作负载的"光速"LLM推理引擎(5分钟阅读)
Lightseek发布TokenSpeed,一款面向智能体工作负载优化的高性能LLM推理引擎,采用编译器驱动的并行技术和先进的内核优化,相关技术已被vLLM采纳。
在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
@Tono_Ken3: 哦天哪,我成功了!它成功了——DeepSeek-V4-Flash-FP8 8 parallel aggregate 400TPS!!本地LLM革命 耶耶耶耶耶!哈哈
在本地硬件上使用8个并行聚合以DeepSeek-V4-Flash-FP8实现了每秒400个token,标志着本地LLM推理的一个重要里程碑。