@berryxia: 一次将大模型的格式搞清楚！盘它！很多朋友都在讨论大模型的这么多格式，到底有啥区别？于是想一篇把 GGUF、MLX 这些本地大模型格式弄清楚。简单说，GGUF 是 llama.cpp 团队搞出来的单文件格式，现在已经是本地推理最主流的…

X AI KOLs Timeline 2026/05/11 12:26 工具

llm-formats gguf mlx local-inference quantization llama-cpp hardware-optimization

摘要

本文详细对比了GGUF、MLX、Safetensors等主流本地大模型文件格式的特点与应用场景，帮助开发者根据硬件环境选择最优格式。

一次将大模型的格式搞清楚！盘它！很多朋友都在讨论大模型的这么多格式，到底有啥区别？于是想一篇把 GGUF、MLX 这些本地大模型格式弄清楚。简单说，GGUF 是 llama.cpp 团队搞出来的单文件格式，现在已经是本地推理最主流的选择。以前 GGML 已经基本淘汰了，现在一个 .gguf 文件就把 header、元数据和所有 tensor 全装进去，加载特别快，还支持各种 K-quants 量化，从 2bit 到 8bit 都能灵活混用。 llama.cpp、Ollama、LM Studio 这些工具基本都靠它跑，Hugging Face 上也一大堆现成的 GGUF 版本。 MLX 则是 Apple 专门为 M 系列芯片优化的框架，mlx-lm 是它的 LLM 版本。模型格式不是单个文件，而是一个目录，里面有 config、tokenizer 和权重（常见 .npz 或 safetensors）。它在 Mac 上跑得特别爽，因为用了统一内存架构，加载和上下文处理都稳，转换时还能直接做 4bit 量化或者混合精度。还有一些其他非主流核心格式比如： PyTorch / Safetensors 是训练和分享的标配，ONNX 适合跨框架部署，TensorRT 则是 NVIDIA 极致性能专用。最有意思的是：GGUF 单文件、量化最灵活、跨平台强，特别适合 CPU 和低配设备。 MLX 在 Mac 上速度和微调体验最好。 Safetensors 体积大但分享方便； ONNX 更偏生产部署。预训练阶段其实都不直接用这些格式，大模型训练完都是 PyTorch/Safetensors 的 checkpoint，后续转换时再做量化（PTQ），GGUF 和 MLX 就是在这一步把量化玩得最溜。总的来说，本地 Mac 用户优先 MLX，跨平台或低配设备就选 GGUF，训练分享还是 Safetensors 最稳。对想自己折腾本地 LLM 的同学来说，可以看看对比图。

查看原文

相似文章

@wsl8297: 分享一本通俗好读的开源书《大模型基础》。从大语言模型入门到架构演化，再到 Prompt 工程、参数高效微调、模型编辑、检索增强生成（RAG）等关键技术，一本串起来。 GitHub：https://github.com/ZJU-LLMs/…

X AI KOLs Timeline

浙江大学团队开源了一本通俗易懂的大模型教材《大模型基础》，涵盖从架构演化到RAG等关键技术，并附带Agent-Kernel多智能体框架。

@Michaelzsguo: https://x.com/Michaelzsguo/status/2053217839729791221

X AI KOLs Timeline

本文是一份本地大模型部署指南，涵盖硬件选择、内存计算、Runtime 工具对比及模型量化选择，帮助用户从入门到优化本地推理体验。

@NFTCPS: 4GB显存跑70B大模型？这事儿真成了！ AirLLM玩了个骚操作——分层推理，不一次性把模型怼进显存，而是一层层加载、算完就扔，硬生生把巨无霸塞进小破卡。最骚的是：100%开源，白嫖警告 https://github.com/0xSo…

X AI KOLs Timeline

AirLLM 是一个完全开源的工具，通过分层推理技术（逐层加载并立即释放显存），使得 70B 大语言模型可在仅 4GB 显存的 GPU 上运行，无需量化、蒸馏或剪枝，并已支持 Llama3.1 405B 在 8GB 显存上运行。

除了权重，GGUF 还包含什么？——以及仍缺少什么？

Hacker News Top

本文探讨了 llama.cpp 用于语言模型的 GGUF 文件格式，重点介绍了其单文件便利性以及嵌入的聊天模板和特殊令牌的作用。还比较了不同的 Jinja 实现，并讨论了该格式仍缺少哪些内容。

@berryxia: Apple 一直其实在赌端侧模型的应用！统一架构内存就是端侧模型的天然温床！统一内存也就是，内存即显存。也看到越来越多的优秀端侧模型出现。 OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了，我看完…

X AI KOLs Timeline

OpenBMB 发布了 MiniCPM-V 4.6，一个 1.3B 参数的多模态模型，通过高分辨率视觉处理和高效压缩技术，在消费级硬件和手机上实现快速推理，性能超过同类大模型，且全面开源支持多种推理和量化框架。

相似文章

@wsl8297: 分享一本通俗好读的开源书《大模型基础》。 从大语言模型入门到架构演化，再到 Prompt 工程、参数高效微调、模型编辑、检索增强生成（RAG）等关键技术，一本串起来。 GitHub：https://github.com/ZJU-LLMs/…

@Michaelzsguo: https://x.com/Michaelzsguo/status/2053217839729791221

@NFTCPS: 4GB显存跑70B大模型？这事儿真成了！ AirLLM玩了个骚操作——分层推理，不一次性把模型怼进显存，而是一层层加载、算完就扔，硬生生把巨无霸塞进小破卡。 最骚的是：100%开源，白嫖警告 https://github.com/0xSo…

除了权重，GGUF 还包含什么？——以及仍缺少什么？

@berryxia: Apple 一直其实在赌端侧模型的应用！ 统一架构内存就是端侧模型的天然温床！ 统一内存也就是，内存即显存。 也看到越来越多的优秀端侧模型出现。 OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了，我看完…

提交意见反馈

@wsl8297: 分享一本通俗好读的开源书《大模型基础》。从大语言模型入门到架构演化，再到 Prompt 工程、参数高效微调、模型编辑、检索增强生成（RAG）等关键技术，一本串起来。 GitHub：https://github.com/ZJU-LLMs/…

@NFTCPS: 4GB显存跑70B大模型？这事儿真成了！ AirLLM玩了个骚操作——分层推理，不一次性把模型怼进显存，而是一层层加载、算完就扔，硬生生把巨无霸塞进小破卡。最骚的是：100%开源，白嫖警告 https://github.com/0xSo…

@berryxia: Apple 一直其实在赌端侧模型的应用！统一架构内存就是端侧模型的天然温床！统一内存也就是，内存即显存。也看到越来越多的优秀端侧模型出现。 OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了，我看完…