@tom_doerr: 压缩深度学习模型以加速推理 https://github.com/NVIDIA/Model-Optimizer…

X AI KOLs Timeline 工具

摘要

NVIDIA Model Optimizer 是一个库,它使用量化、蒸馏、剪枝和推测解码等技术压缩深度学习模型以加速推理。它支持 Hugging Face、PyTorch 和 ONNX 模型,并与 NVIDIA 推理框架集成。

压缩深度学习模型以加速推理 https://t.co/WGZAiskcoo https://t.co/iZS0tSfyFq
查看原文
查看缓存全文

缓存时间: 2026/05/20 06:27

压缩深度学习模型以实现更快的推理 https://t.co/WGZAiskcoo https://t.co/iZS0tSfyFq — # NVIDIA/Model-Optimizer 来源:https://github.com/NVIDIA/Model-Optimizer Banner 图片 # NVIDIA Model Optimizer 文档 (https://nvidia.github.io/Model-Optimizer) 版本 (https://pypi.org/project/nvidia-modelopt/) 许可证 文档 (https://nvidia.github.io/Model-Optimizer) | 路线图 (https://github.com/NVIDIA/Model-Optimizer/issues/146) ______________________________________________________________________ NVIDIA Model Optimizer(简称 Model OptimizerModelOpt)是一个包含最先进模型优化技术(包括量化、蒸馏、剪枝、推测解码和稀疏化)的库,用于加速模型。 [输入] Model Optimizer 目前支持输入 Hugging Face (https://huggingface.co/)、PyTorch (https://github.com/pytorch/pytorch) 或 ONNX (https://github.com/onnx/onnx) 模型。 [优化] Model Optimizer 提供 Python API,方便用户组合上述模型优化技术,并导出优化后的量化检查点。Model Optimizer 还与 NVIDIA Megatron-Bridge (https://github.com/NVIDIA-NeMo/Megatron-Bridge)、Megatron-LM (https://github.com/NVIDIA/Megatron-LM) 和 Hugging Face Accelerate (https://github.com/huggingface/accelerate) 集成,用于需要训练的推理优化技术。 [导出部署] Model Optimizer 与 NVIDIA AI 软件生态系统无缝集成,生成的量化检查点可直接用于下游推理框架,如 SGLang (https://github.com/sgl-project/sglang)、TensorRT-LLM (https://github.com/NVIDIA/TensorRT-LLM/tree/main/examples/quantization)、TensorRT (https://github.com/NVIDIA/TensorRT) 或 vLLM (https://github.com/vllm-project/vllm)。统一的 Hugging Face 导出 API 现已支持 transformers 和 diffusers 模型。 ## 最新消息 - [2026/03/11] Model Optimizer 量化的 Nemotron-3-Super 检查点已在 Hugging Face 上提供下载:FP8 (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8)、NVFP4 (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4)。在 Nemotron 3 Super 发布博客 (https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/) 中了解更多信息。查看如何量化 Nemotron 3 模型以加速部署,请参阅此处 - [2026/03/11] NeMo Megatron Bridge (https://github.com/NVIDIA-NeMo/Megatron-Bridge) 现在支持使用 Model Optimizer 库进行 Nemotron-3-Super 量化(PTQ 和 QAT)及导出工作流。请参阅量化 (PTQ 和 QAT) 指南 (https://github.com/NVIDIA-NeMo/Megatron-Bridge/blob/super-v3/docs/models/llm/nemotron3-super.md#quantization-ptq-and-qat) 获取 FP8/NVFP4 量化和 HF 导出说明。 - [2025/12/11] 博客:实现更快、更智能推理的 Top 5 AI 模型优化技术 (https://developer.nvidia.com/blog/top-5-ai-model-optimization-techniques-for-faster-smarter-inference/) - [2025/12/08] NVIDIA TensorRT Model Optimizer 正式更名为 NVIDIA Model Optimizer。 - [2025/10/07] 博客:使用 NVIDIA Model Optimizer 剪枝和蒸馏 LLM (https://developer.nvidia.com/blog/pruning-and-distilling-llms-using-nvidia-tensorrt-model-optimizer/) - [2025/09/17] 博客:推测解码入门——降低 AI 推理延迟 (https://developer.nvidia.com/blog/an-introduction-to-speculative-decoding-for-reducing-latency-in-ai-inference/) - [2025/09/11] 博客:量化感知训练如何实现低精度精度恢复 (https://developer.nvidia.com/blog/how-quantization-aware-training-enables-low-precision-accuracy-recovery/) - [2025/08/29] 博客:使用量化感知训练微调 gpt-oss 以实现精度和性能 (https://developer.nvidia.com/blog/fine-tuning-gpt-oss-for-accuracy-and-performance-with-quantization-aware-training/) - [2025/08/01] 博客:使用训练后量化优化 LLM 的性能和精度 (https://developer.nvidia.com/blog/optimizing-llms-for-performance-and-accuracy-with-post-training-quantization/) - [2025/06/24] 博客:NVFP4 介绍——高效、准确的低精度推理 (https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/) - [2025/05/14] NVIDIA TensorRT 为 NVIDIA Blackwell GeForce RTX 50 系列 GPU 解锁 FP4 图像生成 (https://developer.nvidia.com/blog/nvidia-tensorrt-unlocks-fp4-image-generation-for-nvidia-blackwell-geforce-rtx-50-series-gpus/) - [2025/04/21] Adobe 使用 Model-Optimizer + TensorRT 优化部署,将扩散延迟降低 60%,总拥有成本降低 40% (https://developer.nvidia.com/blog/optimizing-transformer-based-diffusion-models-for-video-generation-with-nvidia-tensorrt/) - [2025/04/05] NVIDIA 加速 Meta Llama 4 Scout 和 Maverick 的推理 (https://developer.nvidia.com/blog/nvidia-accelerates-inference-on-meta-llama-4-scout-and-maverick/)。查看如何量化 Llama4 以加速部署,请参阅此处 - [2025/03/18] 借助 Blackwell FP4 实现全球最快的 DeepSeek-R1 推理,并提升 Blackwell 上的图像生成效率 (https://developer.nvidia.com/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/) - [2025/02/25] Model Optimizer 量化的 NVFP4 模型已在 Hugging Face 上提供下载:DeepSeek-R1-FP4 (https://huggingface.co/nvidia/DeepSeek-R1-FP4)、Llama-3.3-70B-Instruct-FP4 (https://huggingface.co/nvidia/Llama-3.3-70B-Instruct-FP4)、Llama-3.1-405B-Instruct-FP4 (https://huggingface.co/nvidia/Llama-3.1-405B-Instruct-FP4) - [2025/01/28] Model Optimizer 增加了对 NVFP4 的支持。查看 NVFP4 PTQ 示例,请参阅此处。 - [2025/01/28] Model Optimizer 现已开源! 先前消息 - [2024/10/23] Model Optimizer 量化的 FP8 Llama-3.1 Instruct 模型已在 Hugging Face 上提供下载:8B (https://huggingface.co/nvidia/Llama-3.1-8B-Instruct-FP8)、70B (https://huggingface.co/nvidia/Llama-3.1-70B-Instruct-FP8)、405B (https://huggingface.co/nvidia/Llama-3.1-405B-Instruct-FP8)。 - [2024/09/10] 使用 NVIDIA NeMo 和 Model Optimizer 进行 LLM 训练后量化 (https://developer.nvidia.com/blog/post-training-quantization-of-llms-with-nvidia-nemo-and-nvidia-tensorrt-model-optimizer/)。 - [2024/08/28] 在 NVIDIA H200 GPU 上使用 Model Optimizer 将 Llama 3.1 405B 性能提升高达 44% (https://developer.nvidia.com/blog/boosting-llama-3-1-405b-performance-by-up-to-44-with-nvidia-tensorrt-model-optimizer-on-nvidia-h200-gpus/) - [2024/08/28] 使用 Medusa 将 Llama 3.1 性能提升高达 1.9 倍 (https://developer.nvidia.com/blog/low-latency-inference-chapter-1-up-to-1-9x-higher-llama-3-1-performance-with-medusa-on-nvidia-hgx-h200-with-nvlink-switch/) - [2024/08/15] 新版本中的新功能:Cache Diffusion、与 NVIDIA NeMo 集成的 QLoRA 工作流 (https://docs.nvidia.com/nemo-framework/user-guide/24.09/sft_peft/qlora.html) 等。详情请参阅博客 (https://developer.nvidia.com/blog/nvidia-tensorrt-model-optimizer-v0-15-boosts-inference-performance-and-expands-model-support/)。 - [2024/06/03] Model Optimizer 现已提供实验性功能,可将模型部署到 vLLM,这是我们对主流部署框架支持的一部分。查看工作流,请参阅此处 - [2024/05/08] 公告:Model Optimizer 现已正式可用,进一步提升 GenAI 推理性能 (https://developer.nvidia.com/blog/accelerate-generative-ai-inference-performance-with-nvidia-tensorrt-model-optimizer-now-publicly-available/) - [2024/03/27] Model Optimizer 加持 TensorRT-LLM,刷新 MLPerf LLM 推理记录 (https://developer.nvidia.com/blog/nvidia-h200-tensor-core-gpus-and-nvidia-tensorrt-llm-set-mlperf-llm-inference-records/) - [2024/03/18] GTC 会议:在 TensorRT-LLM 和 TensorRT 中使用量化优化生成式 AI 推理 (https://www.nvidia.com/en-us/on-demand/session/gtc24-s63213/) - [2024/03/07] Model Optimizer 的 8 位训练后量化使 TensorRT 将 Stable Diffusion 加速近 2 倍 (https://developer.nvidia.com/blog/tensorrt-accelerates-stable-diffusion-nearly-2x-faster-with-8-bit-post-training-quantization/) - [2024/02/01] 在 TRT-LLM 中使用 Model Optimizer 量化技术加速推理 (https://github.com/NVIDIA/TensorRT-LLM/blob/main/docs/source/blogs/quantization-in-TRT-LLM.md) ## 安装 若要使用 pip 从 PyPI (https://pypi.org/project/nvidia-modelopt/) 安装 Model Optimizer 稳定版本包: bash pip install -U nvidia-modelopt[all] Model Optimizer 将下载并安装额外的第三方开源软件项目。使用前请查看这些开源项目的许可条款。 若要从源代码以可编辑模式安装所有开发依赖项或使用最新功能,请运行: bash # 克隆 Model Optimizer 仓库 git clone [email protected]:NVIDIA/Model-Optimizer.git cd Model-Optimizer pip install -e .[dev] 你也可以直接使用预装了 Model Optimizer 的 NVIDIA 容器镜像: - nvcr.io/nvidia/pytorch:<xx.xx>-py3 - nvcr.io/nvidia/nemo:<version> - nvcr.io/nvidia/tensorrt-llm/release:<version> 拉取和使用容器镜像前,请先查看其各自的许可条款。请确保按上述说明将 Model Optimizer 升级到最新版本。 请访问我们的安装指南 (https://nvidia.github.io/Model-Optimizer/getting_started/2_installation.html) 以获取更细粒度的依赖安装控制,或获取替代的 Docker 镜像和环境变量设置。 ## 技术 | 技术 | 描述 | 示例 | 文档 | | :————: | :————: | :————: | :————: | | 训练后量化 | 将模型大小压缩 2-4 倍,在保持模型质量的同时加速推理! | [LLMs] [diffusers] [VLMs] [onnx] [windows] | [docs (https://nvidia.github.io/Model-Optimizer/guides/1_quantization.html)] | | 量化感知训练 | 通过少量训练步骤进一步提升精度! | [Hugging Face] | [docs (https://nvidia.github.io/Model-Optimizer/guides/1_quantization.html)] | | 剪枝 | 通过移除不必要的权重来减小模型大小并加速推理! | [General] [Megatron-Bridge] | | | 蒸馏 | 通过训练小模型模仿大模型的行为来减小部署模型大小! | [Megatron-Bridge] [Megatron-LM] [Hugging Face] | [docs (https://nvidia.github.io/Model-Optimizer/guides/4_distillation.html)] | | 推测解码 | 训练草稿模块在推理期间预测额外 token! | [Megatron] [Hugging Face] | [docs (https://nvidia.github.io/Model-Optimizer/guides/5_speculative_decoding.html)] | | 稀疏化 | 通过仅存储非零参数值及其位置来高效压缩模型 | [PyTorch] | [docs (https://nvidia.github.io/Model-Optimizer/guides/6_sparsity.html)] | ## 预量化检查点 - 可立即部署的检查点 [🤗 Hugging Face - Nvidia Model Optimizer 系列 (https://huggingface.co/collections/nvidia/inference-optimized-checkpoints-with-model-optimizer)] - 可在 TensorRT-LLM (https://github.com/NVIDIA/TensorRT-LLM)、vLLM (https://github.com/vllm-project/vllm) 和 SGLang (https://github.com/sgl-project/sglang) 上部署 - 更多模型即将推出! ## 资源 - 📅 路线图 (https://github.com/NVIDIA/Model-Optimizer/issues/146) - 📖 文档 (https://nvidia.github.io/Model-Optimizer) - 🎯 基准测试 - 💡 发布说明 (https://nvidia.github.io/Model-Optimizer/reference/0_changelog.html) - 🐛 提交错误 (https://github.com/NVIDIA/Model-Optimizer/issues/new?template=1_bug_report.md) - ✨ 提交功能请求 (https://github.com/NVIDIA/Model-Optimizer/issues/new?template=2_feature_request.md) ## 模型支持矩阵 | 模型类型 | 支持矩阵 | |————|––––––––| | LLM 量化 | 查看支持矩阵 | | Diffusers 量化 | 查看支持矩阵 | | VLM 量化 | 查看支持矩阵 | | ONNX 量化 | 查看支持矩阵 | | Windows 量化 | 查看支持矩阵 | | 量化感知训练 | 查看支持矩阵 | | 剪枝 | 查看支持矩阵 | | 蒸馏 | 查看支持矩阵 | | 推测解码 | 查看支持矩阵 | ## 弃用策略 Model Optimizer 采用结构化的方式管理弃用功能: - 沟通: 弃用通知记录在更新日志 (https://nvidia.github.io/Model-Optimizer/reference/0_changelog.html) 中。弃用项包含指示弃用时间的源代码语句,并在使用时发出运行时警告。 - 迁移期: 由于 Model Optimizer 仍处于 1.0 版本之前,我们在弃用后提供约 1 个版本(约 1 个月)的迁移期。在此期间,弃用功能将继续工作,但会发出警告。 - 范围: 该策略涵盖完全弃用(移除整个 API)和部分弃用(保留方法但移除特定参数)。 - 移除: 迁移期结束后,弃用的元素将按照语义化版本标准被移除,在 Model Optimizer 仍处于 0.x 期间可能包含次要版本更新中的破坏性更改。 ## 贡献 Model Optimizer 现已开源!我们欢迎任何反馈、功能请求和 Pull Request。请阅读我们的贡献指南以了解如何为该项目做出贡献。 ## AI 代理 关于 AI 辅助开发设置,请参阅代理工具说明。 ### 主要贡献者 贡献者 (https://github.com/NVIDIA/Model-Optimizer/graphs/contributors) 优化愉快!

相似文章

使用 NVIDIA NeMo AutoModel 加速 Transformer 微调

Hugging Face Blog

NVIDIA NeMo AutoModel 利用 HuggingFace Transformers v5,在微调 Mixture-of-Experts 模型时,无需修改代码(只需一个导入),即可实现 3.4 至 3.7 倍的训练吞吐量提升和 29% 至 32% 的 GPU 内存减少。

优化模型以快速进行代码生成(8分钟阅读)

TLDR AI

Morph LLC描述了三种关键技术——基于编码输出训练投机模型、在廉价GPU上自动搜索内核、以及编写自定义互连——以大幅加速像Qwen和DeepSeek这样的开放模型在编码代理工作负载上的运行,实现了最高3倍的投机解码加速,并在7000美元的GPU上达到97-162 tok/s。