nvidia/llama-embed-nemotron-8b 的 MLX 16/8/4/2 位量化版本
摘要
用户将 Nvidia 的 Llama-Embed-Nemotron-8B 模型转换为 MLX 格式,包含 fp16、8位、4位和2位量化,从而能够通过 mlx-embeddings 在 Apple Silicon 上实现在进程内加载嵌入向量。
我将 nvidia/llama-embed-nemotron-8b 转换为 MLX fp16、8位、4位和2位量化(为了满足我的强迫症),并上传到了 HuggingFace:[ncorder/llama-embed-nemotron-8b-mlx-fp16](https://huggingface.co/ncorder/llama-embed-nemotron-8b-mlx-fp16) [ncorder/llama-embed-nemotron-8b-mlx-8bit](https://huggingface.co/ncorder/llama-embed-nemotron-8b-mlx-8bit) [ncorder/llama-embed-nemotron-8b-mlx-4bit](https://huggingface.co/ncorder/llama-embed-nemotron-8b-mlx-4bit) [ncorder/llama-embed-nemotron-8b-mlx-2bit](https://huggingface.co/ncorder/llama-embed-nemotron-8b-mlx-2bit) ——我之前使用 GGUFs 和 llama-server 运行此模型,对 Obsidian 笔记库和其他项目进行本地语义搜索。它运行良好,但我厌倦了仅为了嵌入向量而管理整个 HTTP 服务器,并且还想要 Apple Silicon 的优化。MLX 版本通过 mlx-embeddings 在进程内加载,无需服务器。
from mlx_embeddings import load_model, encode model, tokenizer = load_model("ncorder/llama-embed-nemotron-8b-mlx-4bit") embeddings = encode(model, tokenizer, ["your text here"]) 尽情使用吧!
相似文章
Qwen3.6-35B-A3B-Abliterated-Heretic-MLX-4bit
用户评价了通过MLX为Apple Silicon优化的Qwen3.6-35B模型的量化微调版本,称赞其速度快、智能化程度高且没有安全免责声明。
@no_stp_on_snek: MiniMax-M3 的 Config-I 量化版本已发布在 MLX 上。2-bit 专家、4-bit 注意力、8-bit 边界与嵌入、f16 路由器。约…
发布了 MiniMax-M3 的 Config-I 量化版本,在 MLX 上使用 2-bit 专家和 4-bit 注意力,将 427B MoE 模型从 869GB 减少到约 167GB,但该量化版本未经测试且需要为 mlx_lm 打补丁。
我们为MLX添加了W8A8激活量化——在M5 Pro上预填充从2.84s降至2.52s
Mininglamp AI发布了Cider,一个在Apple的MLX框架上添加W8A8激活量化的小型SDK,通过自定义Metal内核,在M5 Pro上对大型语言模型实现预填充最高1.84倍加速。该工具可与任何MLX模型配合使用,支持M5及以上芯片的INT8 TensorOps。
在MLX中使用turboquant(及自定义内核)运行Gemma4 26b MoE
一位开发者成功在Apple MacBook Air M5上使用MLX、turboquant和自定义内核运行了Gemma4 26b MoE,实现了比llama.cpp更快的提示处理和生成速度,且内存占用更低。实现方式包括本地部署说明。
@neural_avb:我正在将SAM模型及其工具套件移植到Apple silicon上。已经在mlx上看到1.25倍推理速度提升……
将SAM 2.1模型移植到Apple silicon上(使用MLX),在小模型上实现了1.25倍推理速度提升,计划推出量化版。