@LucSGeorges: 性能满载版本:safetensors 0.8.0 发布。主要亮点:- 直接复制到 Metal MTLBuffers + 使用 dlpack 实现零拷贝…
摘要
safetensors 0.8.0 版本带来了重大性能提升:通过 dlpack 直接复制到 Metal MTLBuffers,实现 2-3 倍的加载速度提升,并修复了 macOS 上的 OOM 问题;同时支持无 GIL 序列化,加快多文件保存速度。
查看缓存全文
缓存时间: 2026/06/10 13:51
perf packed release: safetensors 0.8.0 正式发布
主要亮点:
-
直接拷贝到 Metal MTLBuffer + DLPack,实现零拷贝交付到目标框架(目前仅支持 torch) -> 性能提升 2-3 倍,并修复了在 macOS 上使用 transformers 加载接近统一内存限制的模型时出现的 OOM 问题
-
无 GIL 序列化,支持从 Python 进行多线程保存 -> 单个文件保存速度提升 1.2~2 倍,并行保存多个文件时预计会有更显著的提升!
查看发布说明获取完整改进列表!
相似文章
@Youssofal_:MTPLX V0.3 已发布!- 我意识到 M1 和 M2 Mac 并不支持 BF16,之前只是在模拟该格式,导致每秒生成的 tokens 数(TPS)显著下降……
MTPLX v0.3 已发布,这是一个专为 Apple Silicon 设计的原生运行时。它采用多 token 预测(MTP)技术将解码速度提高一倍,并通过 Leviathan-Chen 接受机制维持分布准确性。
@bstnxbt:DFlash v0.1.4:为量化版 Qwen3 混合模型提供自定义 Metal 验证内核,并显著降低峰值内存占用……
DFlash v0.1.4 发布了面向量化版 Qwen3 混合模型的自定义 Metal 验证内核,在 M5 Max GPU 上可显著降低峰值内存占用,并在长上下文场景下实现 2.2 倍吞吐量提升。
@jundotkim: oMLX 0.3.9rc1 发布。亮点:- 低内存Mac保持稳定,不再被系统杀死 - DFlash 升级至…
oMLX 0.3.9rc1,一个为Apple Silicon Mac优化的LLM推理服务器,增加了低内存稳定性、分块预填充、多任务管理聊天等功能。
移除MTP中的填充和多重D2D拷贝 - 由gaugarg-nv提交 · 拉取请求#24086 · ggml-org/llama.cpp
一个针对 llama.cpp 的拉取请求,移除了多令牌预测 (MTP) 中的填充和多重设备到设备拷贝,提高了 GPU 上的性能。
@no_stp_on_snek: vllm-swift 0.6.3 和 longctx 0.3.2 已发布。亮点:triattentionv3 + longctx rescue path 在 Apple Silicon 上达到 256K NIAH…
vllm-swift 0.6.3 和 longctx 0.3.2 版本带来了 triattentionv3,在 Apple Silicon 上支持 256K 上下文;Gemma 4 MTP drafter 支持;带有自动恢复的 Hermes tool calling;以及用于扩展到 12M token 语料的 longctx-svc 守护进程。