INT3 压缩与融合 Metal 内核 [R]

Reddit r/MachineLearning 工具

摘要

独立研究者发布了 Spiral,这是一款专为 Apple Silicon 设计、利用自定义融合 Metal 内核将大语言模型(LLM)压缩至 INT3、KV 缓存压缩至 INT2 的工具,目前已提供 Qwen-7B 预览版。

大家好,我是一名研究员兼独立创始人。我的模型压缩方案在 INT3 精度下仅增加 +0.14 nats 的困惑度损耗,并且我为长序列任务专门构建了 2 位 KV 缓存。我已经为 Mac(M 系列芯片)推出了同时集成 INT3 模型与 INT2 KV 缓存的版本,底层采用自定义的融合 Metal 内核。目前 Qwen 7B 已开放预览版。 #install brew install reinforceai/spiral/spiral #chat spiral-chat 我正在进一步开展内核优化工作,并正开发支持 GPU 的 Triton 内核。当前的压缩打包仍有更大的效率提升空间,很快我会分享更多模型的支持。非常欢迎大家提供任何反馈,或推荐任意参数规模在 100B 以内希望我尝试压缩的模型。 [github.com/ReinforceAI/spiral](http://github.com/ReinforceAI/spiral)
查看原文

相似文章

Qwen3.6-35B-A3B-Abliterated-Heretic-MLX-4bit

Reddit r/LocalLLaMA

用户评价了通过MLX为Apple Silicon优化的Qwen3.6-35B模型的量化微调版本,称赞其速度快、智能化程度高且没有安全免责声明。

Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2

Hugging Face Models Trending

SuperGemma4-26B-Uncensored-MLX-4bit-v2 是 Google Gemma 4 26B 的微调量化版本,专为 Apple Silicon 优化,在代码、推理和工具使用任务上性能提升,同时保持比原版基线更快的推理速度。

jundot/omlx

GitHub Trending (daily)

oMLX 是一个用于在 Apple Silicon Mac 上进行优化 LLM 推理的新开源工具,具备持续批处理和分层 KV 缓存功能,并通过菜单栏应用进行管理。