@0xSero: 刚刚添加了两种新的模型压缩版本:Hy3-FP8 和 NVFP4。我推荐尝试这个模型,它非常强大且可以完整地在 256GB 显存上运行……

X AI KOLs Following 模型

摘要

0xSero 发布了腾讯 Hy3-preview 模型的 FP8 和 NVFP4 量化版本,使其能够在使用完整上下文的情况下在 256GB 显存的设备上运行。

刚刚添加了两种新的模型压缩版本: Hy3-FP8 和 NVFP4 我推荐尝试这个模型,它非常强大,并且可以完整地在 256GB 显存上运行。 https://t.co/UQI63BCFiJ
查看原文
查看缓存全文

缓存时间: 2026/05/10 08:23

刚刚添加了 2 种新的模型压缩格式:

Hy3-FP8 和 NVFP4

我推荐尝试这个模型,它非常强大,并且能在拥有 256GB 显存的显卡上加载完整上下文。

https://t.co/UQI63BCFiJ


0xSero/Hy3-preview-NVFP4 · Hugging Face

来源:https://huggingface.co/0xSero/Hy3-preview-NVFP4

https://huggingface.co/0xSero/Hy3-preview-NVFP4#hy3-preview-nvfp4a16Hy3-preview NVFP4A16

这是 tencent/Hy3-preview (https://huggingface.co/tencent/Hy3-preview) 的一个仅检查点(checkpoint-only)的 NVFP4A16 量化版本,由 llmcompressor.entrypoints.model_free.model_free_ptq 生成。

  • 基础模型:tencent/Hy3-preview
  • 量化方案:NVFP4A16
  • 忽略的模块/模式:lm_head, model.embed_tokens, re:.*router.gate$, re:.*expert_bias$
  • 源快照:记录在 QUANTIZATION_MANIFEST.json
  • 许可证:继承自基础模型的腾讯 Hy 社区许可协议;包含原始 LICENSE 文件。

https://huggingface.co/0xSero/Hy3-preview-NVFP4#notesNotes

本发布对 safetensors 权重进行量化,无需导入自定义的 HYV3 模型类。路由器门控(router gates)、专家偏置张量(expert bias tensors)、嵌入层(embeddings)和 lm_head 均保持未量化状态,以确保兼容性和保守性。

相似文章