Liquid AI 发布 Liquid Foundation Models 2.5 230M(3分钟阅读)

TLDR AI 模型

摘要

Liquid AI 发布 LFM2.5-230M,这是一款轻量级基础模型,可在从云端 GPU 到 CPU 乃至 Raspberry Pi 的设备上运行,在工具使用和数据提取任务上表现出色。

Liquid AI 宣布推出 LFM 2.5,这是一个 2.3 亿参数的非 Transformer 模型架构,基于状态空间和液态神经网络连续时间公式构建。尽管其体积异常紧凑,但在核心边缘推理和序列生成基准测试中,该模型的性能与体积大三倍的 Transformer 模型相当。
查看原文
查看缓存全文

缓存时间: 2026/06/26 17:10

# LFM2.5-230M:专为随处运行而构建 | Liquid AI 来源:https://www.liquid.ai/blog/lfm2-5-230m 今天,我们发布了**LFM2.5-230M**,这是我们迄今为止最小的模型。它是一个快速、轻量的基础模型,供开发者在智能体工作流中微调并部署。基于LFM2架构构建,推理速度极快,可运行于从云端GPU到低成本的CPU(在Galaxy S25 Ultra上解码速度达213 tok/s,在树莓派5上为42 tok/s)。尽管体积小,它在工具使用和数据提取任务上的能力却出人意料地强大。 基础模型(LFM2.5-230M-Base)和后训练模型(LFM2.5-230M)现已于Hugging Face(https://huggingface.co/LiquidAI/LFM2.5-230M)发布。欢迎查阅我们的文档(https://docs.liquid.ai/),了解如何在本地运行和微调这些模型。 ## 训练与微调 该模型在19T个token上进行了预训练,包含一个32K上下文扩展阶段。我们采用了一种轻量级的后训练策略,旨在为开发者针对自身下游应用进行定制时保留灵活性。 该策略包含三个阶段:**(1) 借助LFM2.5-350M进行蒸馏的监督微调,(2) 直接偏好优化,(3) 多领域强化学习**。最终检查点在开箱即用的强大能力与针对下游专业化的适应性之间取得了平衡,同时保持了与更大模型的竞争力。 作为对进行中工作的早期展示,我们将LFM2.5-230M部署在Unitree G1人形机器人上,完全运行于其板载NVIDIA Jetson Orin上。在此,模型充当技能选择层:它接收单一自然语言指令,并将其分解为一系列工具调用,以调用NVIDIA SONIC框架提供的预训练低级技能。通过针对此任务的快速微调,模型能够将类似 > *"保持静止2秒,然后以每秒1米的速度向前行走3米,保持前向单腿跪姿5秒,再以每秒0.5米的速度向后行走3米"* 的自由形式命令,转化为结构化的多步骤计划,链接诸如以目标速度定时行走和单腿跪姿等技能。尽管在此阶段这些行为刻意保持简单,但我们认为这是一个引人注目的信号:一个230M参数的模型可以快速微调并部署在设备上,充当人形机器人的自然语言控制接口。 https://www.youtube.com/shorts/CuMOWa2y1Ho ## 基准测试 我们在涵盖核心能力和应用任务的十个基准上评估了LFM2.5-230M。尽管体积小,它**与两倍于其规模的模型竞争并常常胜出**,领域涵盖知识(GPQA Diamond、MMLU-Pro)、指令遵循(IFEval、IFBench、Multi-IF)、数据提取(CaseReportBench)和工具使用(BFCLv3、BFCLv4、τ2-Bench Telecom和Retail)。 **模型** **GPQA Diamond** **MMLU-Pro** **IFEval** **IFBench** **Multi-IF** **LFM2.5-230M** 25.41 20.25 71.71 38.40 37.70 **LFM2.5-350M** 30.64 20.01 76.96 40.69 44.92 **LFM2-350M** 27.58 19.29 64.96 18.20 32.92 **Granite 4.0-H-350M** 22.32 13.14 61.27 17.22 28.70 **Granite 4.0-350M** 25.91 12.84 53.48 15.98 24.21 **Qwen3.5-0.8B(Instruct)** 27.41 37.42 59.94 22.87 41.68 Gemma 3 1B IT 23.89 14.04 63.49 20.33 44.25 **模型** **CaseReportBench** **BFCLv3** **BFCLv4** **τ2-Bench Telecom** **τ2-Bench Retail** **LFM2.5-230M** 22.51 43.26 21.03 5.26 13.68 **LFM2.5-350M** 32.45 44.11 21.86 18.86 17.84 **LFM2-350M** 11.67 22.95 12.29 10.82 5.56 **Granite 4.0-H-350M** 12.44 43.07 13.28 13.74 6.14 **Granite 4.0-350M** 0.84 39.58 13.73 2.92 6.14 **Qwen3.5-0.8B(Instruct)** 13.83 35.08 18.70 12.57 6.14 Gemma 3 1B IT 2.28 16.61 7.17 9.36 6.43 这使得LFM2.5-230M成为驱动大规模数据提取流水线或轻量级端侧智能体工作负载的理想解决方案。然而,鉴于其紧凑的尺寸,我们不建议将其用于需要深度推理的工作负载,如高级数学、代码生成或创意写作。 ## 随处快速推理 LFM2.5-230M在发布当日即获得推理生态系统的广泛支持: - **llama.cpp**—— 用于高效边缘推理的GGUF检查点 - **MLX**—— 针对Apple Silicon优化的推理 - **vLLM**—— 用于生产吞吐量的GPU加速服务 - **SGLang**—— 用于生产吞吐量的GPU加速服务 - **ONNX**—— 跨多种加速器的跨平台推理 **CPU推理。** 得益于高效的LFM2架构,LFM2.5-230M比类似规模的模型(包括SSM混合模型和门控Delta网络)快得多。在树莓派5和高通骁龙Gen4(三星Galaxy S25 Ultra)上,它在保持最小内存占用的同时,实现了同类最高的预填充和解码吞吐量。我们根据设备调整闪存注意力标志,以最大化各平台的预填充速度:在树莓派5上启用(-fa 1),在骁龙Gen4上禁用(-fa 0)。 **GPU推理。** 对于生产级的企业部署,我们还开发了内部GPU推理栈,可提供极低延迟的服务。我们将其与运行在SGLang上的其他小模型进行基准测试,在所有并发级别下,LFM2.5模型均实现了显著更低的端到端延迟。 ## 开始使用 今天就开始使用LFM2.5-230M和LFM2.5-230M-Base进行构建,它们已在Hugging Face(https://huggingface.co/LiquidAI/LFM2.5-230M)上提供。 通过LFM2.5,我们正在实现AI随处运行的愿景。这些模型: - **开放权重**—— 无限制下载、微调和部署 - **从第一天起就快**—— 原生支持llama.cpp、NexaSDK、MLX和vLLM,覆盖Apple、AMD、Qualcomm和Nvidia硬件 - **完整的模型家族**—— 从用于定制的基座模型到专门的音频和视觉变体,一种架构覆盖多样化的用例 边缘AI的未来已经到来。我们迫不及待想看到您的创造。 ### 引用 请将本文引用为: > Liquid AI, "LFM2.5-230M: Built to Run Anywhere", *Liquid AI Blog*, Jun 2026. 或使用BibTeX引用: `` @article{liquidAI2026230M, author = {Liquid AI}, title = {LFM2.5-230M: Built to Run Anywhere}, journal = {Liquid AI Blog}, year = {2026}, note = {www.liquid.ai/blog/lfm2-5-230m} } ``

相似文章

Liquid AI 发布 LFM2.5-8B-A1B

Reddit r/LocalLLaMA

Liquid AI 发布了 LFM2.5-8B-A1B,这是一款边缘模型,拥有 128K 上下文窗口、38T 预训练 token 和大规模强化学习,支持工具调用和复杂任务,同时可运行于入门级笔记本电脑。

LiquidAI/LFM2.5-230M

Hugging Face Models Trending

Liquid AI发布了LFM2.5-230M,一款紧凑的230M参数混合模型,针对设备端部署进行了优化,边缘推理速度快(在Galaxy S25 Ultra上达到213 tok/s),并通过强化学习构建,适用于智能体任务。

当你没有数据中心GPU时

Reddit r/LocalLLaMA

LiquidAI 发布了 LFM2.5-230M,一个 230M 参数的语言模型,专为在有限硬件上运行而设计,支持 transformers、vLLM 和 SGLang。