Liquid AI 发布基于 38T 训练的 8B-A1B MoE 模型

Hacker News Top 模型

摘要

Liquid AI 发布了 LFM2.5-8B-A1B,这是一款边缘 MoE 模型,基于 38T tokens 训练,拥有 128K 上下文窗口,改进了工具调用和推理能力,可在 Hugging Face 上获取。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/29 19:20

# LFM2.5-8B-A1B:一种更出色的端侧混合专家模型 | Liquid AI 来源:https://www.liquid.ai/blog/lfm2-5-8b-a1b 今天,我们正式发布**LFM2.5-8B-A1B**,这是一款专为消费级硬件打造的边缘模型,旨在实现快速、可靠的工具调用。 该模型基于我们在2025年10月发布的 LFM2-8B-A1B (https://www.liquid.ai/blog/lfm2-8b-a1b-an-efficient-on-device-mixture-of-experts) 基础上构建,扩展了128K上下文窗口,扩大了预训练规模(从12T token增加到38T token),并引入了大规模强化学习。此外,我们还将其词表大小扩大了一倍,以提升非拉丁语的词元化效率。最终成果是一个能够串联工具调用、完成任务,并且即使在入门级笔记本电脑上也能流畅运行的模型。 基础版(LFM2.5-8B-A1B-Base)和训练后版(LFM2.5-8B-A1B)现已在 Hugging Face (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B) 和我们的 Playground (https://playground.liquid.ai/chat?model=LFM2.5-8B-A1B) 上提供。请查看我们的 文档 (https://docs.liquid.ai/) 了解如何在本地运行和微调。 *\*AA-Omniscience 指数(越高越好)奖励正确答案,惩罚幻觉。分数范围从 -100 到 100。更多结果请参见 **Artificial Analysis** (https://artificialanalysis.ai/evaluations/omniscience)。* ## 亮点 - **端侧个人助理**。旨在驱动真实应用,在所有设备上串联工具调用并遵循复杂指令。 - **压缩性能**。在指令遵循和智能体任务上与更大的稠密模型及MoE模型不相上下。 - **无与伦比的吞吐量**。在CPU和GPU推理上均为同尺寸中最快,并支持 llama.cpp、MLX、vLLM 和 SGLang 的首日支持。 ## 自 LFM2-8B-A1B 以来的变化 与 LFM2-8B-A1B 相比,这个新版本将 **上下文窗口从 32,768 扩展到 128,000 个 token**。这使得模型能够处理更长的文档并更长时间地推理。其词表大小也从 65,536 扩展到 128,000,以**更高效地对非拉丁文脚本进行词元化**。我们特别观察到在印地语、泰语、越南语、印度尼西亚语和阿拉伯语方面有很强的压缩增益。架构的其他部分沿用了 LFM2-8B-A1B 中 MoE、GQA 和门控短卷积块的组合,如下图所示。 .png) 与前代产品不同,LFM2.5-8B-A1B 是一个纯推理模型,在最终答案之前产生显式的思维链。我们采用这一策略是因为 MoE 模型通常在计算受限的环境下运行,此时更少的活跃参数使得每个推理 token 成本更低。这在不牺牲速度的前提下显著提升了质量。 得益于推理和扩大的训练,这个新版本表现明显更好: | **基准** | **LFM2-8B-A1B** | **LFM2.5-8B-A1B** | **Δ** | | --- | --- | --- | --- | | AA-Omniscience 指数 | -78.42 | -24.70 | +53.62 | | AA-Omniscience 准确率 | 7.33 | 8.67 | +1.34 | | AA-Omniscience 非幻觉率 | 7.46 | 63.47 | +56.01 | | IFEval | 79.44 | 91.84 | +12.40 | | IFBench | 26.00 | 56.47 | +30.47 | | Multi-IF | 58.54 | 79.93 | +21.39 | | MATH500 | 74.80 | 88.76 | +13.96 | | AIME25 | 20.00 | 42.53 | +22.53 | | BFCLv3 | 45.07 | 64.36 | +19.29 | | BFCLv4 | 25.52 | 48.50 | +22.98 | | Tau2 Telecom | 13.60 | 88.07 | +74.47 | | Tau2 Retail | 7.02 | 39.82 | +32.80 | ## 训练亮点 **词表扩展。** LFM2-8B-A1B 原始使用一个针对我们初始语言覆盖优化过的 65K BPE 词元化器。为了更好地支持 LFM2.5 中的非拉丁文脚本,我们通过原位扩展现有词元化器将词表扩大了一倍至 128K,而不是从头重新训练模型。我们在原始合并的基础上,在多语言语料库上继续进行 BPE 合并训练,这使得大多数现有 token ID 保持恒等映射,并且每个新 token 都能确定性地分解为一系列原始子 token。我们将新的嵌入行初始化为其子 token 分解的平均值,并保持共享行不变。然后通过一个简短的两阶段适应来恢复质量:先进行仅嵌入训练,然后进行全模型持续预训练。 下表报告了 chars/token,即每个 token 大致携带多少文本:数值越高越好,新的词元化器在所有 16 种语言中都更高效。 | **词元化器** | **阿拉伯语 (ar)** | **德语 (de)** | **英语 (en)** | **西班牙语 (es)** | **法语 (fr)** | **印地语 (hi)** | **印尼语 (id)** | **意大利语 (it)** | **日语 (ja)** | **韩语 (ko)** | **波兰语 (pl)** | **葡萄牙语 (pt)** | **俄语 (ru)** | **泰语 (th)** | **越南语 (vi)** | **中文 (zh)** | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 旧词元化器 | 2.239 | 3.641 | 4.063 | 3.442 | 3.618 | 0.961 | 2.731 | 3.251 | 1.836 | 1.652 | 2.672 | 3.194 | 2.703 | 0.671 | 1.519 | 1.475 | | 新词元化器 | 3.107 | 3.783 | 4.137 | 3.579 | 3.759 | 2.118 | 3.513 | 3.475 | 1.963 | 1.943 | 2.895 | 3.450 | 2.876 | 2.269 | 3.311 | 1.620 | | 提升 | +38.8% | +3.9% | +1.8% | +4.0% | +3.9% | +120.4% | +28.6% | +6.9% | +6.9% | +17.6% | +8.3% | +8.0% | +6.4% | +238.2% | +117.9% | +9.8% | **上下文扩展。** 我们首先通过一个 2T token 的中期训练阶段将上下文窗口扩展到 32K,该阶段重点处理推理、数学、工具使用和长文档。然后我们通过增加 RoPE base θ 并运行一个额外的 400B token 中期训练阶段(专注于长文档和长轨迹数据)将上下文扩展到 128K。 **死循环。** 我们增加了一个针对性的偏好优化阶段,以减少长推理轨迹中的死循环。该阶段会识别出在特定上下文中容易触发循环行为的 token,然后将概率质量重新分配给合理的替代选项,同时保持其余下一个 token 分布基本不变。在强化学习阶段,我们还添加了一个轻量级的塑形奖励,用于抑制过度使用常见的引发循环的“等待...”等重启词。我们将在后续的专门博文中分享有关完整流程、目标和实证结果的更多细节。 **幻觉。** 由于参数数量较少,边缘模型的知识容量有限,这会导致更多幻觉。为了减轻幻觉,我们增加了一个针对性的强化学习阶段,该阶段在一个多样化的知识数据集上使用基于 avg@k 的奖励。目标是强化在超出可靠知识范围的查询上放弃回答,同时保留现有知识。这会产生更清晰的知识边界和更明确的不确定性表达。 ## 基准测试 我们在涵盖知识、指令遵循、数学和智能体工作流的基准上评估了 LFM2.5-8B-A1B。该模型在总参数量相近的稠密模型以及大得多的 MoE 模型中都具有竞争力。 | **模型** | **参数** | **AA-Omniscience 指数** | **准确率** | **非幻觉率** | **IFEval** | **IFBench** | **Multi-IF** | | --- | --- | --- | --- | --- | --- | --- | --- | | LFM2.5-8B-A1B | 8B/A1B | -24.70 | 8.67 | 63.47 | 91.84 | 56.47 | 79.93 | | Granite-4.0-H-Tiny | 7B/A1B | -75.50 | 9.37 | 6.38 | 82.23 | 21.28 | 59.00 | | Qwen3.5-4B | 4B | -51.53 | 17.20 | 16.99 | 87.80 | 50.38 | 67.43 | | Qwen3-30B-A3B-Thinking-2507 | 30.5B/3.3B | -51.31 | 18.80 | 13.87 | 90.82 | 51.11 | 79.04 | | Gemma-4-E2B-IT | 5.1B | -72 | 7.00 | 15.05 | 82.93 | 33.53 | 69.70 | | Gemma-4-E4B-IT | 8B | -50.67 | 8.10 | 36.06 | 87.74 | 39.48 | 77.58 | | Gemma-4-26B-A4B-IT | 26B/4B | -62.07 | 14.37 | 10.75 | 91.40 | 47.25 | 82.06 | | gpt-oss-20b | 21B/3.6B | -49.17 | 14.57 | 24.50 | 86.73 | 58.65 | 76.64 | 基于 avg@k 的奖励使得 LFM2.5-8B-A1B 在保持合理准确率的同时实现了显著更低的幻觉率。它在指令遵循基准上也处于领先地位,以更少的活跃参数匹配了 Gemma 4-26B 等更大的 MoE 模型。 ### 数学和智能体工作流 | **模型** | **参数** | **MATH500** | **AIME25** | **AIME26** | **BFCLv3** | **BFCLv4** | **Tau2 Telecom** | **Tau2 Retail** | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | LFM2.5-8B-A1B | 8B/A1B | 88.76 | 42.53 | 50.00 | 64.79 | 49.73 | 88.07 | 39.82 | | Granite-4.0-H-Tiny | 7B/A1B | 59.20 | 4.93 | 3.33 | 56.89 | 28.52 | 16.67 | 18.42 | | Qwen3.5-4B | 4B | 80.76 | 54.28 | 58.33 | 71.06 | 54.01 | 87.72 | 71.93 | | Qwen3-30B-A3B-Thinking-2507 | 30.5B/3.3B | 86.48 | 71.67 | 66.67 | 73.39 | 50.53 | 21.93 | 56.14 | | Gemma-4-E2B-IT | 5.1B | 64.00 | 26 | 30 | 56.44 | 31.91 | 22.37 | 18.95 | | Gemma-4-E4B-IT | 8B | 65.00 | 34.33 | 40.67 | 57.31 | 33.92 | 26.75 | 42.11 | | Gemma-4-26B-A4B-IT | 26B/4B | 94.20 | 68.67 | 72.00 | 68.87 | 55.87 | 42.11 | 55.26 | | gpt-oss-20b | 21B/3.6B | 92.40 | 68.53 | 68.67 | 62.52 | 49.88 | 57.24 | 53.51 | 在智能体基准上,LFM2.5-8B-A1B 与更大的模型不相上下,并且在 Tau2-Telecom 上尤其强大。随着智能体测试平台成为使用模型的主要方式,LFM2.5-8B-A1B 是朝着驱动端侧、完全私有智能体迈出的第一步。 ## 处处可稀疏推理 LFM2.5-8B-A1B 在推理生态系统中提供了首日支持: - **LEAP** — Liquid 面向 iOS 和 Android 部署的边缘 AI 平台 - **llama.cpp** — GGUF 检查点,用于高效的边缘推理 - **MLX** — 针对 Apple Silicon 的优化推理 - **vLLM** — 用于生产吞吐量的 GPU 加速服务 - **SGLang** — 用于生产吞吐量的 GPU 加速服务 - **ONNX** — 跨多样化加速器的跨平台推理 **CPU 推理。** LFM2.5-8B-A1B 提供对 llama.cpp 的首日支持,并在日常消费级硬件上运行。 在笔记本电脑级别的芯片上,它都是我们测试过的读取提示和生成答案最快的模型,在 M5 Max 上解码速度为 253 tokens/s,在 Ryzen AI Max+ 395 上为 146 tokens/s,同时内存占用低于 6 GB。在手机上甚至能维持约 30 tokens/s,因此一个功能强大的助手可以在您自己的设备上即时且私密地运行。 **GPU 推理。** 我们通过 vLLM 和 SGLang 提供推理支持,这是通过对这些代码库的积极贡献实现的。我们在单个 NVIDIA H100 SXM5 GPU 上使用持续负载设置测量输出吞吐量(总输出 token 除以墙钟时间):在每个并发级别,我们持续保持目标数量的在途请求,并在每个请求完成后立即替换。 我们使用 SGLang 0.5.12 对每个模型进行基准测试,输入 1,024 个 token,最多输出 256 个 token,使用 BF16 精度,每个并发级别平均运行 3 次。LFM2.5-8B-A1B 是其尺寸类别中最快的模型,在高并发下达到每秒 18.5K 输出 token,单个 H100 上每天超过 1.6B token。 ## LocalCowork:一睹为快 我们的开源桌面智能体演示程序 LocalCowork (https://github.com/Liquid4All/cookbook/tree/main/examples/localcowork) 现在可以在 LFM2.5-8B-A1B 上运行。该设置与我们三月份用于 LFM2-24B-A2B 演示 (https://www.liquid.ai/blog/no-cloud-tool-calling-agents-consumer-hardware-lfm2-24b-a2b) 相同:一台笔记本电脑、13 个 MCP 服务器上的 67 个工具、无云端、无 API 密钥、无数据离开机器。工具选择更快,并且在相同的工具菜单上明显更可靠。 该演示的重点并非单个工具,而是**工具调度循环在消费级硬件上感觉是交互式的**:提问、建议、确认、运行、重复,每次调度均在远低于一秒内完成,并带有完整的审计轨迹,且您的数据永远不会离开设备。 ## 开始使用 借助 LFM2.5,我们正在实现 AI 在任何地方运行的愿景。这些模型具有以下特点: - **开放权重** — 下载、微调和部署无限制 - **首日即高速** — 原生支持 Apple、AMD、Intel、Qualcomm 和 Nvidia 硬件上的 llama.cpp、MLX、vLLM、SGLang - **完整的系列** — 从用于定制的基座模型到专用的音频和视觉变体,单一架构覆盖多样化的用例 端侧智能体的未来从这里开始。我们迫不及待地想看到您构建的应用。 ### 引用 请按以下方式引用本文: > Liquid AI, “LFM2.5-8B-A1B: Personal Assistant On Your Laptop”, *Liquid AI Blog*, May 2026. 或使用 BibTeX 引用: `` @article{liquidAI20268BA1B, author = {Liquid AI}, title = {LFM2.5-8B-A1B: Personal Assistant On Your Laptop}, journal = {Liquid AI Blog}, year = {2026}, note = {https://www.liquid.ai/blog/lfm2-5-8b-a1b}, } ``

相似文章

Liquid AI 发布 LFM2.5-8B-A1B

Reddit r/LocalLLaMA

Liquid AI 发布了 LFM2.5-8B-A1B,这是一款边缘模型,拥有 128K 上下文窗口、38T 预训练 token 和大规模强化学习,支持工具调用和复杂任务,同时可运行于入门级笔记本电脑。

LiquidAI/LFM2.5-8B-A1B-GGUF

Hugging Face Models Trending

LiquidAI 发布了其 LFM2.5-8B-A1B 模型的 GGUF 量化版本,并提供了在多个推理引擎上的使用说明。

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face

Reddit r/LocalLLaMA

Ovis2.6-80B-A3B 是 AIDC-AI 最新发布的多模态大语言模型,采用混合专家(Mixture-of-Experts)架构,总参数达 80B,但在推理时仅激活 3B 参数。该模型具备增强的长上下文处理能力、高分辨率理解能力以及主动视觉推理能力。

AI2推出的新MoE模型:EMO

Reddit r/LocalLLaMA

AI2发布了EMO,一个混合专家(MoE)语言模型,总参数量14B,其中1B活跃参数,基于1万亿tokens训练,并采用文档级路由,即专家会按领域(如健康、新闻等)进行聚类。