INT3 压缩与融合 Metal 内核 [R]
摘要
独立研究者发布了 Spiral,这是一款专为 Apple Silicon 设计、利用自定义融合 Metal 内核将大语言模型(LLM)压缩至 INT3、KV 缓存压缩至 INT2 的工具,目前已提供 Qwen-7B 预览版。
大家好,我是一名研究员兼独立创始人。我的模型压缩方案在 INT3 精度下仅增加 +0.14 nats 的困惑度损耗,并且我为长序列任务专门构建了 2 位 KV 缓存。我已经为 Mac(M 系列芯片)推出了同时集成 INT3 模型与 INT2 KV 缓存的版本,底层采用自定义的融合 Metal 内核。目前 Qwen 7B 已开放预览版。
#install brew install reinforceai/spiral/spiral
#chat spiral-chat
我正在进一步开展内核优化工作,并正开发支持 GPU 的 Triton 内核。当前的压缩打包仍有更大的效率提升空间,很快我会分享更多模型的支持。非常欢迎大家提供任何反馈,或推荐任意参数规模在 100B 以内希望我尝试压缩的模型。
[github.com/ReinforceAI/spiral](http://github.com/ReinforceAI/spiral)
相似文章
Qwen3.6-35B-A3B-Abliterated-Heretic-MLX-4bit
用户评价了通过MLX为Apple Silicon优化的Qwen3.6-35B模型的量化微调版本,称赞其速度快、智能化程度高且没有安全免责声明。
@bstnxbt:DFlash v0.1.4:为量化版 Qwen3 混合模型提供自定义 Metal 验证内核,并显著降低峰值内存占用……
DFlash v0.1.4 发布了面向量化版 Qwen3 混合模型的自定义 Metal 验证内核,在 M5 Max GPU 上可显著降低峰值内存占用,并在长上下文场景下实现 2.2 倍吞吐量提升。
Qwen3.6-27B 各量化格式 KLD 对比:INT 与 NVFP
Reddit 帖子对比了 Qwen3.6-27B 的多种量化版本(INT4、NVFP4、BF16-INT4),展示不同场景下内存占用与精度的权衡。
Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2
SuperGemma4-26B-Uncensored-MLX-4bit-v2 是 Google Gemma 4 26B 的微调量化版本,专为 Apple Silicon 优化,在代码、推理和工具使用任务上性能提升,同时保持比原版基线更快的推理速度。
jundot/omlx
oMLX 是一个用于在 Apple Silicon Mac 上进行优化 LLM 推理的新开源工具,具备持续批处理和分层 KV 缓存功能,并通过菜单栏应用进行管理。