LFM2.5 230M 使用自定义 WebGPU 内核在浏览器中以 1,400 tok/s 运行

Reddit r/LocalLLaMA 2026/06/25 18:35 模型

webgpu in-browser ai-model optimization large-language-model custom-kernels high-throughput

摘要

LFM2.5 230M 模型使用自定义 WebGPU 内核在浏览器中实现每秒 1,400 个 token，展示了高效的本地推理。

暂无内容

查看原文

相似文章

Reddit r/LocalLLaMA

Gemma 4被演示在浏览器中通过WebGPU以每秒255个token的速度运行，使用Fable 5生成的内核，展示了高效的设备端推理。

X AI KOLs Timeline

LottoLabs 宣布了 LiquidAI 的 LFM2.5-8B-A1B-GGUF 模型，这是一个8B参数的模型，在大量token上训练，并针对有限GPU硬件上的快速推理进行了优化，支持 llama.cpp、Ollama、vLLM 等。

X AI KOLs Timeline

Liquid AI发布了LFM2.5-230M，这是一个拥有230M参数的小型模型，针对CPU、NPU和GPU上的快速推理进行了优化，适用于手机和机器人等设备上的代理型任务。

X AI KOLs Timeline

一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行，支持 37 万 token 上下文，解码最高 45 tok/s，预填充 1340 tok/s，并现场演示操控 Figma。

Reddit r/LocalLLaMA

一篇详细博客文章，描述了如何通过停止模型跨模块通信，并将FP8 MTP头部嫁接至INT4基础模型上，将双Grace Hopper系统上的GLM-5.2推理速度从2.5 tok/s显著提升到超过50 tok/s。