@0xSero: 刚刚添加了两种新的模型压缩版本:Hy3-FP8 和 NVFP4。我推荐尝试这个模型,它非常强大且可以完整地在 256GB 显存上运行……
摘要
0xSero 发布了腾讯 Hy3-preview 模型的 FP8 和 NVFP4 量化版本,使其能够在使用完整上下文的情况下在 256GB 显存的设备上运行。
查看缓存全文
缓存时间: 2026/05/10 08:23
刚刚添加了 2 种新的模型压缩格式:
Hy3-FP8 和 NVFP4
我推荐尝试这个模型,它非常强大,并且能在拥有 256GB 显存的显卡上加载完整上下文。
https://t.co/UQI63BCFiJ
0xSero/Hy3-preview-NVFP4 · Hugging Face
来源:https://huggingface.co/0xSero/Hy3-preview-NVFP4
https://huggingface.co/0xSero/Hy3-preview-NVFP4#hy3-preview-nvfp4a16Hy3-preview NVFP4A16
这是 tencent/Hy3-preview (https://huggingface.co/tencent/Hy3-preview) 的一个仅检查点(checkpoint-only)的 NVFP4A16 量化版本,由 llmcompressor.entrypoints.model_free.model_free_ptq 生成。
- 基础模型:
tencent/Hy3-preview - 量化方案:
NVFP4A16 - 忽略的模块/模式:
lm_head,model.embed_tokens,re:.*router.gate$,re:.*expert_bias$ - 源快照:记录在
QUANTIZATION_MANIFEST.json中 - 许可证:继承自基础模型的腾讯 Hy 社区许可协议;包含原始
LICENSE文件。
https://huggingface.co/0xSero/Hy3-preview-NVFP4#notesNotes
本发布对 safetensors 权重进行量化,无需导入自定义的 HYV3 模型类。路由器门控(router gates)、专家偏置张量(expert bias tensors)、嵌入层(embeddings)和 lm_head 均保持未量化状态,以确保兼容性和保守性。
相似文章
在sm120上使用NVFP4 KV缓存量化将使32GB VRAM系统变得非常强大
在sm120上使用NVFP4 KV缓存量化显著提高了大语言模型的内存效率,使32GB VRAM系统在196k上下文大小下使用Qwen3.6-27B实现约60 tok/秒的推理速度。
@0xSero:本周最适合你硬件的模型。8-12GB - https://huggingface.co/LiquidAI/LFM2.5-8B-A1B… 令人难以置信的模型,如此快速,如此…
每周精选推荐最适合不同硬件配置(从8GB到768GB显存)的AI模型,突出性能与基准测试结果。
@0xSero:适合你硬件的最佳模型——4GB到12GB显存——VibeThinker-3B——秒杀所有同量级模型……
本推文推荐了针对不同显存容量优化的AI模型,重点介绍了VibeThinker-3B在3B参数量下的强大推理能力,以及其他用于编程和通用场景的模型。
48GB 显存实现 500k 上下文!!- 21 tok/s (编码)
一位用户报告成功部署了量化版 Nemotron-3 Super 模型,该模型支持 500k 上下文和代理编码,运行在消费级双 Titan RTX 硬件上。
@bstnxbt:DFlash v0.1.4:为量化版 Qwen3 混合模型提供自定义 Metal 验证内核,并显著降低峰值内存占用……
DFlash v0.1.4 发布了面向量化版 Qwen3 混合模型的自定义 Metal 验证内核,在 M5 Max GPU 上可显著降低峰值内存占用,并在长上下文场景下实现 2.2 倍吞吐量提升。