@berryxia: 一次将大模型的格式搞清楚!盘它! 很多朋友都在讨论大模型的这么多格式,到底有啥区别? 于是想一篇把 GGUF、MLX 这些本地大模型格式弄清楚。 简单说,GGUF 是 llama.cpp 团队搞出来的单文件格式,现在已经是本地推理最主流的…

X AI KOLs Timeline 工具

摘要

本文详细对比了GGUF、MLX、Safetensors等主流本地大模型文件格式的特点与应用场景,帮助开发者根据硬件环境选择最优格式。

一次将大模型的格式搞清楚!盘它! 很多朋友都在讨论大模型的这么多格式,到底有啥区别? 于是想一篇把 GGUF、MLX 这些本地大模型格式弄清楚。 简单说,GGUF 是 llama.cpp 团队搞出来的单文件格式,现在已经是本地推理最主流的选择。 以前 GGML 已经基本淘汰了,现在一个 .gguf 文件就把 header、元数据和所有 tensor 全装进去,加载特别快,还支持各种 K-quants 量化,从 2bit 到 8bit 都能灵活混用。 llama.cpp、Ollama、LM Studio 这些工具基本都靠它跑,Hugging Face 上也一大堆现成的 GGUF 版本。 MLX 则是 Apple 专门为 M 系列芯片优化的框架,mlx-lm 是它的 LLM 版本。 模型格式不是单个文件,而是一个目录,里面有 config、tokenizer 和权重(常见 .npz 或 safetensors)。 它在 Mac 上跑得特别爽,因为用了统一内存架构,加载和上下文处理都稳,转换时还能直接做 4bit 量化或者混合精度。 还有一些其他非主流核心格式比如: PyTorch / Safetensors 是训练和分享的标配,ONNX 适合跨框架部署,TensorRT 则是 NVIDIA 极致性能专用。 最有意思的是:GGUF 单文件、量化最灵活、跨平台强,特别适合 CPU 和低配设备。 MLX 在 Mac 上速度和微调体验最好。 Safetensors 体积大但分享方便; ONNX 更偏生产部署。 预训练阶段其实都不直接用这些格式,大模型训练完都是 PyTorch/Safetensors 的 checkpoint,后续转换时再做量化(PTQ),GGUF 和 MLX 就是在这一步把量化玩得最溜。 总的来说,本地 Mac 用户优先 MLX,跨平台或低配设备就选 GGUF,训练分享还是 Safetensors 最稳。 对想自己折腾本地 LLM 的同学来说,可以看看对比图。
查看原文

相似文章

@NFTCPS: 4GB显存跑70B大模型?这事儿真成了! AirLLM玩了个骚操作——分层推理,不一次性把模型怼进显存,而是一层层加载、算完就扔,硬生生把巨无霸塞进小破卡。 最骚的是:100%开源,白嫖警告 https://github.com/0xSo…

X AI KOLs Timeline

AirLLM 是一个完全开源的工具,通过分层推理技术(逐层加载并立即释放显存),使得 70B 大语言模型可在仅 4GB 显存的 GPU 上运行,无需量化、蒸馏或剪枝,并已支持 Llama3.1 405B 在 8GB 显存上运行。

@berryxia: Apple 一直其实在赌端侧模型的应用! 统一架构内存就是端侧模型的天然温床! 统一内存也就是,内存即显存。 也看到越来越多的优秀端侧模型出现。 OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了,我看完…

X AI KOLs Timeline

OpenBMB 发布了 MiniCPM-V 4.6,一个 1.3B 参数的多模态模型,通过高分辨率视觉处理和高效压缩技术,在消费级硬件和手机上实现快速推理,性能超过同类大模型,且全面开源支持多种推理和量化框架。