@LottoLabs: 给显卡不够用的兄弟们的一个超酷模型，在一个海量token上训练的8b a1b模型，速度飞快…

X AI KOLs Timeline 2026/05/28 18:37 模型

liquid-ai 8b-model a1b gguf gpu-poor open-source llama-cpp

摘要

LottoLabs 宣布了 LiquidAI 的 LFM2.5-8B-A1B-GGUF 模型，这是一个8B参数的模型，在大量token上训练，并针对有限GPU硬件上的快速推理进行了优化，支持 llama.cpp、Ollama、vLLM 等。

给显卡不够用的兄弟们的一个超酷模型在一个海量token上训练的8b a1b模型速度飞快，迫不及待想试试 https://t.co/dfN7OyeEMC

查看原文

查看缓存全文

缓存时间: 2026/05/29 03:54

一个对GPU贫民兄弟很酷的模型

在8b a1b模型上训练了难以计数的token

速度会超快，迫不及待想试试

https://t.co/dfN7OyeEMC

LiquidAI/LFM2.5-8B-A1B-GGUF · Hugging Face

来源：https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF 库llama-cpp-python (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?library=llama-cpp-python)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与llama-cpp-python一起使用：

!pip install llama-cpp-python

from llama_cpp import Llama

llm = Llama.from_pretrained( repo_id=“LiquidAI/LFM2.5-8B-A1B-GGUF”, filename=“LFM2.5-8B-A1B-BF16.gguf”, ) ``

llm.create_chat_completion( messages = [ { "role": "user", "content": "What is the capital of France?" } ] )

NotebooksGoogle Colab (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF/colab)Kaggle (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF/kaggle)本地应用https://huggingface.co/settings/local-apps#local-appsllama.cpp (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=llama.cpp)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与llama.cpp一起使用：

通过brew安装

`` brew install llama.cpp

启动一个带Web界面的本地OpenAI兼容服务器：

llama-server -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

直接在终端运行推理：

llama-cli -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

通过WinGet安装（Windows）

`` winget install llama.cpp

启动一个带Web界面的本地OpenAI兼容服务器：

llama-server -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

直接在终端运行推理：

llama-cli -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

使用预编译二进制文件

从以下地址下载预编译二进制文件：

https://github.com/ggerganov/llama.cpp/releases

启动一个带Web界面的本地OpenAI兼容服务器：

./llama-server -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

直接在终端运行推理：

./llama-cli -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

从源代码编译

`` git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake –build build -j –target llama-server llama-cli

启动一个带Web界面的本地OpenAI兼容服务器：

./build/bin/llama-server -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

直接在终端运行推理：

./build/bin/llama-cli -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

使用Docker

docker model run hf.co/LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

LM Studio JanvLLM (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=vllm)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与vLLM一起使用：

通过pip安装并服务模型

通过pip安装vLLM：

pip install vllm

启动vLLM服务器：

vllm serve “LiquidAI/LFM2.5-8B-A1B-GGUF”

使用curl调用服务器（兼容OpenAI API）：

curl -X POST “http://localhost:8000/v1/chat/completions”
-H “Content-Type: application/json”
–data ‘{ “model”: “LiquidAI/LFM2.5-8B-A1B-GGUF”, “messages”: [ { “role”: “user”, “content”: “What is the capital of France?” } ] }’ ``

使用Docker

docker model run hf.co/LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

Ollama (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=ollama)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与Ollama一起使用：

ollama run hf.co/LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

Unsloth Studio（新）(https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=unsloth)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与Unsloth Studio一起使用：

安装Unsloth Studio（macOS、Linux、WSL）

`` curl -fsSL https://unsloth.ai/install.sh | sh

运行unsloth studio

unsloth studio -H 0.0.0.0 -p 8888

然后在浏览器中打开http://localhost:8888

搜索LiquidAI/LFM2.5-8B-A1B-GGUF即可开始聊天

安装Unsloth Studio（Windows）

`` irm https://unsloth.ai/install.ps1 | iex

运行unsloth studio

unsloth studio -H 0.0.0.0 -p 8888

然后在浏览器中打开http://localhost:8888

搜索LiquidAI/LFM2.5-8B-A1B-GGUF即可开始聊天

使用HuggingFace Spaces运行Unsloth

无需安装

在浏览器中打开https://huggingface.co/spaces/unsloth/studio

搜索LiquidAI/LFM2.5-8B-A1B-GGUF即可开始聊天

Pi（新）(https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=pi)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与Pi一起使用：

启动llama.cpp服务器

安装llama.cpp：

brew install llama.cpp

启动一个本地OpenAI兼容服务器：

llama-server -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

在Pi中配置模型

安装Pi：

npm install -g @mariozechner/pi-coding-agent

添加到 ~/.pi/agent/models.json：

{ “providers”: { “llama-cpp”: { “baseUrl”: “http://localhost:8080/v1”, “api”: “openai-completions”, “apiKey”: “none”, “models”: [ { “id”: “LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M” } ] } } } ``

运行Pi

在项目目录中启动Pi：

pi ``

Hermes Agent（新）(https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=hermes-agent)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与Hermes Agent一起使用：

启动llama.cpp服务器

安装llama.cpp：

brew install llama.cpp

启动一个本地OpenAI兼容服务器：

llama-server -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

配置Hermes

安装Hermes：

curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash hermes setup

将Hermes指向本地服务器：

hermes config set model.provider custom hermes config set model.base_url http://127.0.0.1:8080/v1 hermes config set model.default LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

运行Hermes

hermes

Docker Model Runner (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=docker-model-runner)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与Docker Model Runner一起使用：

docker model run hf.co/LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

Lemonade (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=lemonade)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与Lemonade一起使用：

拉取模型

从 https://lemonade-server.ai/ 下载Lemonade

lemonade pull LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

运行并与模型聊天

lemonade run user.LFM2.5-8B-A1B-GGUF-Q4_K_M

列出所有可用模型

lemonade list

LiquidAI/LFM2.5-8B-A1B-GGUF · Hugging Face

!pip install llama-cpp-python

通过brew安装

启动一个带Web界面的本地OpenAI兼容服务器：

直接在终端运行推理：

通过WinGet安装（Windows）

启动一个带Web界面的本地OpenAI兼容服务器：

直接在终端运行推理：

使用预编译二进制文件

从以下地址下载预编译二进制文件：

https://github.com/ggerganov/llama.cpp/releases

启动一个带Web界面的本地OpenAI兼容服务器：

直接在终端运行推理：

从源代码编译

启动一个带Web界面的本地OpenAI兼容服务器：

直接在终端运行推理：

使用Docker

通过pip安装并服务模型

通过pip安装vLLM：

启动vLLM服务器：

使用curl调用服务器（兼容OpenAI API）：

使用Docker

安装Unsloth Studio（macOS、Linux、WSL）

运行unsloth studio

然后在浏览器中打开http://localhost:8888

搜索LiquidAI/LFM2.5-8B-A1B-GGUF即可开始聊天

安装Unsloth Studio（Windows）

运行unsloth studio

然后在浏览器中打开http://localhost:8888

搜索LiquidAI/LFM2.5-8B-A1B-GGUF即可开始聊天

使用HuggingFace Spaces运行Unsloth

无需安装

在浏览器中打开https://huggingface.co/spaces/unsloth/studio

搜索LiquidAI/LFM2.5-8B-A1B-GGUF即可开始聊天

启动llama.cpp服务器

安装llama.cpp：

启动一个本地OpenAI兼容服务器：

在Pi中配置模型

安装Pi：

添加到 ~/.pi/agent/models.json：

运行Pi

在项目目录中启动Pi：

启动llama.cpp服务器

安装llama.cpp：

启动一个本地OpenAI兼容服务器：

配置Hermes

安装Hermes：

将Hermes指向本地服务器：

运行Hermes

拉取模型

从 https://lemonade-server.ai/ 下载Lemonade

运行并与模型聊天

列出所有可用模型

相似文章

当你没有数据中心GPU时

@liquidai：推出LFM2.5-230M：这是我们最小的模型，专为快速运行而设计，可在任何地方（CPU、NPU和GPU）上运行，以实现代理型任务…

LFM2.5 230M 使用自定义 WebGPU 内核在浏览器中以 1,400 tok/s 运行

@tom_doerr: 在单个4GB GPU上运行70B大语言模型 https://github.com/lyogavin/airllm

LiquidAI/LFM2.5-8B-A1B-GGUF

提交意见反馈