@berryxia: 一次将大模型的格式搞清楚!盘它! 很多朋友都在讨论大模型的这么多格式,到底有啥区别? 于是想一篇把 GGUF、MLX 这些本地大模型格式弄清楚。 简单说,GGUF 是 llama.cpp 团队搞出来的单文件格式,现在已经是本地推理最主流的…
摘要
本文详细对比了GGUF、MLX、Safetensors等主流本地大模型文件格式的特点与应用场景,帮助开发者根据硬件环境选择最优格式。
一次将大模型的格式搞清楚!盘它! 很多朋友都在讨论大模型的这么多格式,到底有啥区别? 于是想一篇把 GGUF、MLX 这些本地大模型格式弄清楚。 简单说,GGUF 是 llama.cpp 团队搞出来的单文件格式,现在已经是本地推理最主流的选择。 以前 GGML 已经基本淘汰了,现在一个 .gguf 文件就把 header、元数据和所有 tensor 全装进去,加载特别快,还支持各种 K-quants 量化,从 2bit 到 8bit 都能灵活混用。 llama.cpp、Ollama、LM Studio 这些工具基本都靠它跑,Hugging Face 上也一大堆现成的 GGUF 版本。 MLX 则是 Apple 专门为 M 系列芯片优化的框架,mlx-lm 是它的 LLM 版本。 模型格式不是单个文件,而是一个目录,里面有 config、tokenizer 和权重(常见 .npz 或 safetensors)。 它在 Mac 上跑得特别爽,因为用了统一内存架构,加载和上下文处理都稳,转换时还能直接做 4bit 量化或者混合精度。 还有一些其他非主流核心格式比如: PyTorch / Safetensors 是训练和分享的标配,ONNX 适合跨框架部署,TensorRT 则是 NVIDIA 极致性能专用。 最有意思的是:GGUF 单文件、量化最灵活、跨平台强,特别适合 CPU 和低配设备。 MLX 在 Mac 上速度和微调体验最好。 Safetensors 体积大但分享方便; ONNX 更偏生产部署。 预训练阶段其实都不直接用这些格式,大模型训练完都是 PyTorch/Safetensors 的 checkpoint,后续转换时再做量化(PTQ),GGUF 和 MLX 就是在这一步把量化玩得最溜。 总的来说,本地 Mac 用户优先 MLX,跨平台或低配设备就选 GGUF,训练分享还是 Safetensors 最稳。 对想自己折腾本地 LLM 的同学来说,可以看看对比图。
相似文章
@wsl8297: 分享一本通俗好读的开源书《大模型基础》。 从大语言模型入门到架构演化,再到 Prompt 工程、参数高效微调、模型编辑、检索增强生成(RAG)等关键技术,一本串起来。 GitHub:https://github.com/ZJU-LLMs/…
浙江大学团队开源了一本通俗易懂的大模型教材《大模型基础》,涵盖从架构演化到RAG等关键技术,并附带Agent-Kernel多智能体框架。
@Michaelzsguo: https://x.com/Michaelzsguo/status/2053217839729791221
本文是一份本地大模型部署指南,涵盖硬件选择、内存计算、Runtime 工具对比及模型量化选择,帮助用户从入门到优化本地推理体验。
@NFTCPS: 4GB显存跑70B大模型?这事儿真成了! AirLLM玩了个骚操作——分层推理,不一次性把模型怼进显存,而是一层层加载、算完就扔,硬生生把巨无霸塞进小破卡。 最骚的是:100%开源,白嫖警告 https://github.com/0xSo…
AirLLM 是一个完全开源的工具,通过分层推理技术(逐层加载并立即释放显存),使得 70B 大语言模型可在仅 4GB 显存的 GPU 上运行,无需量化、蒸馏或剪枝,并已支持 Llama3.1 405B 在 8GB 显存上运行。
除了权重,GGUF 还包含什么?——以及仍缺少什么?
本文探讨了 llama.cpp 用于语言模型的 GGUF 文件格式,重点介绍了其单文件便利性以及嵌入的聊天模板和特殊令牌的作用。还比较了不同的 Jinja 实现,并讨论了该格式仍缺少哪些内容。
@berryxia: Apple 一直其实在赌端侧模型的应用! 统一架构内存就是端侧模型的天然温床! 统一内存也就是,内存即显存。 也看到越来越多的优秀端侧模型出现。 OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了,我看完…
OpenBMB 发布了 MiniCPM-V 4.6,一个 1.3B 参数的多模态模型,通过高分辨率视觉处理和高效压缩技术,在消费级硬件和手机上实现快速推理,性能超过同类大模型,且全面开源支持多种推理和量化框架。