LFM2.5 230M 使用自定义 WebGPU 内核在浏览器中以 1,400 tok/s 运行
摘要
LFM2.5 230M 模型使用自定义 WebGPU 内核在浏览器中实现每秒 1,400 个 token,展示了高效的本地推理。
暂无内容
相似文章
Gemma 4 E2B 在浏览器中运行,使用Fable 5编写的WebGPU内核,速度达255 tok/s
Gemma 4被演示在浏览器中通过WebGPU以每秒255个token的速度运行,使用Fable 5生成的内核,展示了高效的设备端推理。
@LottoLabs: 给显卡不够用的兄弟们的一个超酷模型,在一个海量token上训练的8b a1b模型,速度飞快…
LottoLabs 宣布了 LiquidAI 的 LFM2.5-8B-A1B-GGUF 模型,这是一个8B参数的模型,在大量token上训练,并针对有限GPU硬件上的快速推理进行了优化,支持 llama.cpp、Ollama、vLLM 等。
@liquidai:推出LFM2.5-230M:这是我们最小的模型,专为快速运行而设计,可在任何地方(CPU、NPU和GPU)上运行,以实现代理型任务…
Liquid AI发布了LFM2.5-230M,这是一个拥有230M参数的小型模型,针对CPU、NPU和GPU上的快速推理进行了优化,适用于手机和机器人等设备上的代理型任务。
@0xSero:GLM-5.1-478B-NVFP4 跑在:4×RTX Pro 6000、SGLang,最大 37 万 token(1.75× 满上下文),p10 27.7 | p90 45…
一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行,支持 37 万 token 上下文,解码最高 45 tok/s,预填充 1340 tok/s,并现场演示操控 Figma。
我进行了一些模型优化技巧,将GH200系统上的GLM5.2从约2.5 tok/s提升至超过50 tok/s。
一篇详细博客文章,描述了如何通过停止模型跨模块通信,并将FP8 MTP头部嫁接至INT4基础模型上,将双Grace Hopper系统上的GLM-5.2推理速度从2.5 tok/s显著提升到超过50 tok/s。