@LucSGeorges: 性能满载版本：safetensors 0.8.0 发布。主要亮点：- 直接复制到 Metal MTLBuffers + 使用 dlpack 实现零拷贝…

X AI KOLs Following 2026/06/09 19:49 工具

safetensors performance serialization metal dlpack machine-learning

摘要

safetensors 0.8.0 版本带来了重大性能提升：通过 dlpack 直接复制到 Metal MTLBuffers，实现 2-3 倍的加载速度提升，并修复了 macOS 上的 OOM 问题；同时支持无 GIL 序列化，加快多文件保存速度。

性能满载版本：safetensors 0.8.0 发布主要亮点： - 直接复制到 Metal MTLBuffers + 使用 dlpack 实现向目标框架（目前仅支持 torch）的零拷贝传递 -> 2-3 倍性能提升，并修复了使用 transformers 加载接近统一内存上限的模型时在 macOS 上出现的 OOM 问题 - 无 GIL 的序列化，支持从 Python 进行多线程保存 -> 单个文件速度提升 1.2 到 2 倍，但并行保存多个文件时预期将获得更大提升！查看发布说明，了解全部改进内容！

查看原文

查看缓存全文

缓存时间: 2026/06/10 13:51

perf packed release: safetensors 0.8.0 正式发布

主要亮点：

直接拷贝到 Metal MTLBuffer + DLPack，实现零拷贝交付到目标框架（目前仅支持 torch） -> 性能提升 2-3 倍，并修复了在 macOS 上使用 transformers 加载接近统一内存限制的模型时出现的 OOM 问题
无 GIL 序列化，支持从 Python 进行多线程保存 -> 单个文件保存速度提升 1.2~2 倍，并行保存多个文件时预计会有更显著的提升！

查看发布说明获取完整改进列表！

相似文章

@Youssofal_：MTPLX V0.3 已发布！- 我意识到 M1 和 M2 Mac 并不支持 BF16，之前只是在模拟该格式，导致每秒生成的 tokens 数（TPS）显著下降……

X AI KOLs Timeline

MTPLX v0.3 已发布，这是一个专为 Apple Silicon 设计的原生运行时。它采用多 token 预测（MTP）技术将解码速度提高一倍，并通过 Leviathan-Chen 接受机制维持分布准确性。

@bstnxbt：DFlash v0.1.4：为量化版 Qwen3 混合模型提供自定义 Metal 验证内核，并显著降低峰值内存占用……

X AI KOLs Following

DFlash v0.1.4 发布了面向量化版 Qwen3 混合模型的自定义 Metal 验证内核，在 M5 Max GPU 上可显著降低峰值内存占用，并在长上下文场景下实现 2.2 倍吞吐量提升。

@jundotkim: oMLX 0.3.9rc1 发布。亮点：- 低内存Mac保持稳定，不再被系统杀死 - DFlash 升级至…

X AI KOLs Timeline

oMLX 0.3.9rc1，一个为Apple Silicon Mac优化的LLM推理服务器，增加了低内存稳定性、分块预填充、多任务管理聊天等功能。

移除MTP中的填充和多重D2D拷贝 - 由gaugarg-nv提交 · 拉取请求#24086 · ggml-org/llama.cpp

Reddit r/LocalLLaMA

一个针对 llama.cpp 的拉取请求，移除了多令牌预测 (MTP) 中的填充和多重设备到设备拷贝，提高了 GPU 上的性能。

@no_stp_on_snek: vllm-swift 0.6.3 和 longctx 0.3.2 已发布。亮点：triattentionv3 + longctx rescue path 在 Apple Silicon 上达到 256K NIAH…