Forge-UGC：面向通用图编译器的 FX 优化与寄存器图引擎

Hugging Face Daily Papers 2026/04/14 00:00 论文

摘要

Forge-UGC 是一个四阶段通用图编译器，可在 NPU 上加速 Transformer 部署，相比 OpenVINO/ONNX Runtime，编译时间缩短 6.9–9.2 倍，推理延迟降低 18–36%，能耗减少 30–41%。

我们提出 Forge-UGC（FX Optimization and Register-Graph Engine for Universal Graph Compilation），一个面向异构加速器硬件的四阶段 Transformer 部署编译器，并在 Intel AI Boost NPU 上验证。现有框架如 OpenVINO 和 ONNX Runtime 常采用不透明编译流水线，缺乏 pass 级可见性，且缓冲管理薄弱，导致编译开销与运行时开销偏高。Forge-UGC 采用硬件无关设计，将图捕获、优化、中间表示降阶与后端调度四阶段解耦： - 阶段 1 使用 torch.export 在 ATen 算子级捕获计算图，原生支持 rotary position embeddings、grouped-query attention、SwiGLU 等现代 Transformer 组件，无需手工分解。 - 阶段 2 执行六项优化：死代码消除、公共子表达式消除、常量折叠、注意力融合、算子融合与布局优化，图节点数减少 14.2–21.9%。 - 阶段 3 将优化后的图降阶为带显式虚拟寄存器分配的强类型中间表示。 - 阶段 4 进行活跃性分析与线性扫描缓冲分配，峰值缓冲数量降低 30–48%；并基于设备亲和度调度，NPU-CPU 切换减少 42–65%。在 125M–8B 参数的六大模型家族、WikiText-103 与 GLUE 上的实验表明，Forge-UGC 编译速度比 OpenVINO 和 ONNX Runtime 快 6.9–9.2 倍，推理延迟降低 18.2–35.7%，单次推理能耗减少 30.2–40.9%。精度无损，最大绝对 logit 差低于 2.1e-5，KL 散度低于 8.4e-9。我们还提出 Fusion Gain Ratio、Compilation Efficiency Index 及 per-pass 执行画像，为 NPU 编译流水线提供系统化评估指标。

查看原文

查看缓存全文

缓存时间: 2026/04/21 15:38

论文页面 - Forge-UGC：面向通用图编译的 FX 优化与寄存器图引擎

来源：https://huggingface.co/papers/2604.16498

摘要

Forge-UGC 是一个四阶段编译器，可在异构硬件上高效部署 Transformer，与现有框架相比，编译速度更快、推理延迟更低、能耗更少。

我们提出 Forge-UGC（FX Optimization and Register-Graph Engine for Universal Graph Compilation），一个面向异构加速器硬件（已在 Intel AI Boost NPU 验证）的 Transformer 部署四阶段编译器。现有框架如 OpenVINO 与 ONNX Runtime 常采用不透明编译管线，Pass 级可见性有限且缓冲区管理薄弱，导致编译开销与运行时开销偏高。Forge-UGC 采用硬件无关设计，将图捕获、优化、中间表示下沉与后端调度四阶段解耦：

阶段 1 在 ATen 算子级使用 torch.export 捕获计算图，原生支持现代 Transformer 组件（旋转位置编码、分组查询注意力、SwiGLU），无需手工分解。
阶段 2 执行六种优化 Pass：死代码消除、公共子表达式消除、常量折叠、注意力融合、算子融合与布局优化，图节点数减少 14.2%–21.9%。
阶段 3 将优化后的图下沉至带显式虚拟寄存器分配的强类型中间表示。
阶段 4 进行活跃变量分析、线性扫描缓冲区分配（峰值缓冲区数降低 30%–48%）与设备亲和调度（NPU-CPU 切换减少 42%–65%）。

在 WikiText-103 与 GLUE 上，对 125 M–8 B 参数的六大模型家族评估显示，Forge-UGC 编译速度比 OpenVINO 与 ONNX Runtime 快 6.9–9.2 倍，推理延迟降低 18.2%–35.7%，单次推理能耗减少 30.2%–40.9%。精度无损，最大绝对 logit 差低于 2.1e-5，KL 散度低于 8.4e-9。我们还提出融合增益比、编译效率指数与逐 Pass 执行分析，用于系统评估 NPU 编译管线。

查看 arXiv 页面 (https://arxiv.org/abs/2604.16498)
查看 PDF (https://arxiv.org/pdf/2604.16498)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.16498)

在智能体中获取该论文：

hf papers read 2604.16498

尚未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2604.16498 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.16498 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2604.16498 即可在此页面显示链接。

包含该论文的合集 0

暂集合辑包含该论文

将该论文添加到合集 (https://huggingface.co/new-collection) 即可在此页面显示链接。

Forge-UGC：面向通用图编译器的 FX 优化与寄存器图引擎

论文页面 - Forge-UGC：面向通用图编译的 FX 优化与寄存器图引擎

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的合集 0

相似文章

基准测试：仅限CPU硬件上Parakeet TDT 0.6B的ONNX Runtime、HF Transformers与GGUF对比 [D]

KForge：面向AI加速器的LLM驱动跨平台内核生成

优化模型以快速进行代码生成（8分钟阅读）

GamerForge

一个可定制的编译器，用于为AI模型生成高效的融合GPU内核 [P]

提交意见反馈