@0xSero: 刚刚添加了两种新的模型压缩版本：Hy3-FP8 和 NVFP4。我推荐尝试这个模型，它非常强大且可以完整地在 256GB 显存上运行……

X AI KOLs Following 2026/05/10 00:02 模型

model-quantization huggingface tensor-compression nvfp4 tencent gpu-optimization

摘要

0xSero 发布了腾讯 Hy3-preview 模型的 FP8 和 NVFP4 量化版本，使其能够在使用完整上下文的情况下在 256GB 显存的设备上运行。

刚刚添加了两种新的模型压缩版本： Hy3-FP8 和 NVFP4 我推荐尝试这个模型，它非常强大，并且可以完整地在 256GB 显存上运行。 https://t.co/UQI63BCFiJ

查看原文

查看缓存全文

缓存时间: 2026/05/10 08:23

刚刚添加了 2 种新的模型压缩格式：

Hy3-FP8 和 NVFP4

我推荐尝试这个模型，它非常强大，并且能在拥有 256GB 显存的显卡上加载完整上下文。

https://t.co/UQI63BCFiJ

0xSero/Hy3-preview-NVFP4 · Hugging Face

来源：https://huggingface.co/0xSero/Hy3-preview-NVFP4

https://huggingface.co/0xSero/Hy3-preview-NVFP4#hy3-preview-nvfp4a16Hy3-preview NVFP4A16

这是 tencent/Hy3-preview (https://huggingface.co/tencent/Hy3-preview) 的一个仅检查点（checkpoint-only）的 NVFP4A16 量化版本，由 llmcompressor.entrypoints.model_free.model_free_ptq 生成。

基础模型：tencent/Hy3-preview
量化方案：NVFP4A16
忽略的模块/模式：lm_head, model.embed_tokens, re:.*router.gate$, re:.*expert_bias$
源快照：记录在 QUANTIZATION_MANIFEST.json 中
许可证：继承自基础模型的腾讯 Hy 社区许可协议；包含原始 LICENSE 文件。

https://huggingface.co/0xSero/Hy3-preview-NVFP4#notesNotes

本发布对 safetensors 权重进行量化，无需导入自定义的 HYV3 模型类。路由器门控（router gates）、专家偏置张量（expert bias tensors）、嵌入层（embeddings）和 lm_head 均保持未量化状态，以确保兼容性和保守性。

相似文章

在sm120上使用NVFP4 KV缓存量化将使32GB VRAM系统变得非常强大

Reddit r/LocalLLaMA

在sm120上使用NVFP4 KV缓存量化显著提高了大语言模型的内存效率，使32GB VRAM系统在196k上下文大小下使用Qwen3.6-27B实现约60 tok/秒的推理速度。

@0xSero：本周最适合你硬件的模型。8-12GB - https://huggingface.co/LiquidAI/LFM2.5-8B-A1B… 令人难以置信的模型，如此快速，如此…

X AI KOLs Timeline

每周精选推荐最适合不同硬件配置（从8GB到768GB显存）的AI模型，突出性能与基准测试结果。

@0xSero：适合你硬件的最佳模型——4GB到12GB显存——VibeThinker-3B——秒杀所有同量级模型……

X AI KOLs Timeline

本推文推荐了针对不同显存容量优化的AI模型，重点介绍了VibeThinker-3B在3B参数量下的强大推理能力，以及其他用于编程和通用场景的模型。

48GB 显存实现 500k 上下文！！- 21 tok/s (编码)

Reddit r/LocalLLaMA

一位用户报告成功部署了量化版 Nemotron-3 Super 模型，该模型支持 500k 上下文和代理编码，运行在消费级双 Titan RTX 硬件上。

@bstnxbt：DFlash v0.1.4：为量化版 Qwen3 混合模型提供自定义 Metal 验证内核，并显著降低峰值内存占用……

X AI KOLs Following

DFlash v0.1.4 发布了面向量化版 Qwen3 混合模型的自定义 Metal 验证内核，在 M5 Max GPU 上可显著降低峰值内存占用，并在长上下文场景下实现 2.2 倍吞吐量提升。