@LottoLabs: 给显卡不够用的兄弟们的一个超酷模型,在一个海量token上训练的8b a1b模型,速度飞快…

X AI KOLs Timeline 模型

摘要

LottoLabs 宣布了 LiquidAI 的 LFM2.5-8B-A1B-GGUF 模型,这是一个8B参数的模型,在大量token上训练,并针对有限GPU硬件上的快速推理进行了优化,支持 llama.cpp、Ollama、vLLM 等。

给显卡不够用的兄弟们的一个超酷模型 在一个海量token上训练的8b a1b模型 速度飞快,迫不及待想试试 https://t.co/dfN7OyeEMC
查看原文
查看缓存全文

缓存时间: 2026/05/29 03:54

一个对GPU贫民兄弟很酷的模型

在8b a1b模型上训练了难以计数的token

速度会超快,迫不及待想试试

https://t.co/dfN7OyeEMC


LiquidAI/LFM2.5-8B-A1B-GGUF · Hugging Face

来源:https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF 库llama-cpp-python (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?library=llama-cpp-python)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与llama-cpp-python一起使用:

``

!pip install llama-cpp-python

from llama_cpp import Llama

llm = Llama.from_pretrained( repo_id=“LiquidAI/LFM2.5-8B-A1B-GGUF”, filename=“LFM2.5-8B-A1B-BF16.gguf”, ) ``

llm.create_chat_completion( messages = [ { "role": "user", "content": "What is the capital of France?" } ] )

NotebooksGoogle Colab (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF/colab)Kaggle (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF/kaggle)本地应用https://huggingface.co/settings/local-apps#local-appsllama.cpp (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=llama.cpp)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与llama.cpp一起使用:

通过brew安装

`` brew install llama.cpp

启动一个带Web界面的本地OpenAI兼容服务器:

llama-server -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

直接在终端运行推理:

llama-cli -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

通过WinGet安装(Windows)

`` winget install llama.cpp

启动一个带Web界面的本地OpenAI兼容服务器:

llama-server -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

直接在终端运行推理:

llama-cli -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

使用预编译二进制文件

``

从以下地址下载预编译二进制文件:

https://github.com/ggerganov/llama.cpp/releases

启动一个带Web界面的本地OpenAI兼容服务器:

./llama-server -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

直接在终端运行推理:

./llama-cli -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

从源代码编译

`` git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp cmake -B build cmake –build build -j –target llama-server llama-cli

启动一个带Web界面的本地OpenAI兼容服务器:

./build/bin/llama-server -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

直接在终端运行推理:

./build/bin/llama-cli -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

使用Docker

docker model run hf.co/LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

LM StudioJanvLLM (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=vllm)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与vLLM一起使用:

通过pip安装并服务模型

``

通过pip安装vLLM:

pip install vllm

启动vLLM服务器:

vllm serve “LiquidAI/LFM2.5-8B-A1B-GGUF”

使用curl调用服务器(兼容OpenAI API):

curl -X POST “http://localhost:8000/v1/chat/completions”
-H “Content-Type: application/json”
–data ‘{ “model”: “LiquidAI/LFM2.5-8B-A1B-GGUF”, “messages”: [ { “role”: “user”, “content”: “What is the capital of France?” } ] }’ ``

使用Docker

docker model run hf.co/LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

Ollama (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=ollama)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与Ollama一起使用:

ollama run hf.co/LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

Unsloth Studio(新)(https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=unsloth)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与Unsloth Studio一起使用:

安装Unsloth Studio(macOS、Linux、WSL)

`` curl -fsSL https://unsloth.ai/install.sh | sh

运行unsloth studio

unsloth studio -H 0.0.0.0 -p 8888

然后在浏览器中打开http://localhost:8888

搜索LiquidAI/LFM2.5-8B-A1B-GGUF即可开始聊天

``

安装Unsloth Studio(Windows)

`` irm https://unsloth.ai/install.ps1 | iex

运行unsloth studio

unsloth studio -H 0.0.0.0 -p 8888

然后在浏览器中打开http://localhost:8888

搜索LiquidAI/LFM2.5-8B-A1B-GGUF即可开始聊天

``

使用HuggingFace Spaces运行Unsloth

``

无需安装

在浏览器中打开https://huggingface.co/spaces/unsloth/studio

搜索LiquidAI/LFM2.5-8B-A1B-GGUF即可开始聊天

``

Pi(新)(https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=pi)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与Pi一起使用:

启动llama.cpp服务器

``

安装llama.cpp:

brew install llama.cpp

启动一个本地OpenAI兼容服务器:

llama-server -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

在Pi中配置模型

``

安装Pi:

npm install -g @mariozechner/pi-coding-agent

添加到 ~/.pi/agent/models.json:

{ “providers”: { “llama-cpp”: { “baseUrl”: “http://localhost:8080/v1”, “api”: “openai-completions”, “apiKey”: “none”, “models”: [ { “id”: “LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M” } ] } } } ``

运行Pi

``

在项目目录中启动Pi:

pi ``

Hermes Agent(新)(https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=hermes-agent)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与Hermes Agent一起使用:

启动llama.cpp服务器

``

安装llama.cpp:

brew install llama.cpp

启动一个本地OpenAI兼容服务器:

llama-server -hf LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

配置Hermes

``

安装Hermes:

curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash hermes setup

将Hermes指向本地服务器:

hermes config set model.provider custom hermes config set model.base_url http://127.0.0.1:8080/v1 hermes config set model.default LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

运行Hermes

hermes

Docker Model Runner (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=docker-model-runner)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与Docker Model Runner一起使用:

docker model run hf.co/LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M

Lemonade (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF?local-app=lemonade)如何将LiquidAI/LFM2.5-8B-A1B-GGUF与Lemonade一起使用:

拉取模型

``

从 https://lemonade-server.ai/ 下载Lemonade

lemonade pull LiquidAI/LFM2.5-8B-A1B-GGUF:Q4_K_M ``

运行并与模型聊天

lemonade run user.LFM2.5-8B-A1B-GGUF-Q4_K_M

列出所有可用模型

lemonade list

相似文章

LiquidAI/LFM2.5-8B-A1B-GGUF

Hugging Face Models Trending

LiquidAI 发布了其 LFM2.5-8B-A1B 模型的 GGUF 量化版本,并提供了在多个推理引擎上的使用说明。

lyogavin/airllm

GitHub Trending (daily)

AirLLM 是一个开源库,能够在单个 4GB GPU 上运行大型语言模型(最高可达 405B),无需量化、蒸馏或剪枝,显著降低了本地 LLM 推理的硬件门槛。