LFM2.5 230M 使用自定义 WebGPU 内核在浏览器中以 1,400 tok/s 运行

Reddit r/LocalLLaMA 模型

摘要

LFM2.5 230M 模型使用自定义 WebGPU 内核在浏览器中实现每秒 1,400 个 token,展示了高效的本地推理。

暂无内容
查看原文

相似文章