INT3 压缩与融合 Metal 内核 [R]

Reddit r/MachineLearning 2026/04/22 06:54 工具

摘要

独立研究者发布了 Spiral，这是一款专为 Apple Silicon 设计、利用自定义融合 Metal 内核将大语言模型（LLM）压缩至 INT3、KV 缓存压缩至 INT2 的工具，目前已提供 Qwen-7B 预览版。

大家好，我是一名研究员兼独立创始人。我的模型压缩方案在 INT3 精度下仅增加 +0.14 nats 的困惑度损耗，并且我为长序列任务专门构建了 2 位 KV 缓存。我已经为 Mac（M 系列芯片）推出了同时集成 INT3 模型与 INT2 KV 缓存的版本，底层采用自定义的融合 Metal 内核。目前 Qwen 7B 已开放预览版。 #install brew install reinforceai/spiral/spiral #chat spiral-chat 我正在进一步开展内核优化工作，并正开发支持 GPU 的 Triton 内核。当前的压缩打包仍有更大的效率提升空间，很快我会分享更多模型的支持。非常欢迎大家提供任何反馈，或推荐任意参数规模在 100B 以内希望我尝试压缩的模型。 [github.com/ReinforceAI/spiral](http://github.com/ReinforceAI/spiral)

查看原文

INT3 压缩与融合 Metal 内核 [R]

相似文章

Qwen3.6-35B-A3B-Abliterated-Heretic-MLX-4bit

@bstnxbt：DFlash v0.1.4：为量化版 Qwen3 混合模型提供自定义 Metal 验证内核，并显著降低峰值内存占用……

Qwen3.6-27B 各量化格式 KLD 对比：INT 与 NVFP

Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2

jundot/omlx

提交意见反馈