Forge-UGC:面向通用图编译器的 FX 优化与寄存器图引擎

Hugging Face Daily Papers 论文

摘要

Forge-UGC 是一个四阶段通用图编译器,可在 NPU 上加速 Transformer 部署,相比 OpenVINO/ONNX Runtime,编译时间缩短 6.9–9.2 倍,推理延迟降低 18–36%,能耗减少 30–41%。

我们提出 Forge-UGC(FX Optimization and Register-Graph Engine for Universal Graph Compilation),一个面向异构加速器硬件的四阶段 Transformer 部署编译器,并在 Intel AI Boost NPU 上验证。现有框架如 OpenVINO 和 ONNX Runtime 常采用不透明编译流水线,缺乏 pass 级可见性,且缓冲管理薄弱,导致编译开销与运行时开销偏高。Forge-UGC 采用硬件无关设计,将图捕获、优化、中间表示降阶与后端调度四阶段解耦: - 阶段 1 使用 torch.export 在 ATen 算子级捕获计算图,原生支持 rotary position embeddings、grouped-query attention、SwiGLU 等现代 Transformer 组件,无需手工分解。 - 阶段 2 执行六项优化:死代码消除、公共子表达式消除、常量折叠、注意力融合、算子融合与布局优化,图节点数减少 14.2–21.9%。 - 阶段 3 将优化后的图降阶为带显式虚拟寄存器分配的强类型中间表示。 - 阶段 4 进行活跃性分析与线性扫描缓冲分配,峰值缓冲数量降低 30–48%;并基于设备亲和度调度,NPU-CPU 切换减少 42–65%。 在 125M–8B 参数的六大模型家族、WikiText-103 与 GLUE 上的实验表明,Forge-UGC 编译速度比 OpenVINO 和 ONNX Runtime 快 6.9–9.2 倍,推理延迟降低 18.2–35.7%,单次推理能耗减少 30.2–40.9%。精度无损,最大绝对 logit 差低于 2.1e-5,KL 散度低于 8.4e-9。我们还提出 Fusion Gain Ratio、Compilation Efficiency Index 及 per-pass 执行画像,为 NPU 编译流水线提供系统化评估指标。
查看原文
查看缓存全文

缓存时间: 2026/04/21 15:38

论文页面 - Forge-UGC:面向通用图编译的 FX 优化与寄存器图引擎

来源:https://huggingface.co/papers/2604.16498

摘要

Forge-UGC 是一个四阶段编译器,可在异构硬件上高效部署 Transformer,与现有框架相比,编译速度更快、推理延迟更低、能耗更少。

我们提出 Forge-UGC(FX Optimization and Register-Graph Engine for Universal Graph Compilation),一个面向异构加速器硬件(已在 Intel AI Boost NPU 验证)的 Transformer 部署四阶段编译器。现有框架如 OpenVINO 与 ONNX Runtime 常采用不透明编译管线,Pass 级可见性有限且缓冲区管理薄弱,导致编译开销与运行时开销偏高。Forge-UGC 采用硬件无关设计,将图捕获、优化、中间表示下沉与后端调度四阶段解耦:

  • 阶段 1 在 ATen 算子级使用 torch.export 捕获计算图,原生支持现代 Transformer 组件(旋转位置编码、分组查询注意力、SwiGLU),无需手工分解。
  • 阶段 2 执行六种优化 Pass:死代码消除、公共子表达式消除、常量折叠、注意力融合、算子融合与布局优化,图节点数减少 14.2%–21.9%。
  • 阶段 3 将优化后的图下沉至带显式虚拟寄存器分配的强类型中间表示。
  • 阶段 4 进行活跃变量分析、线性扫描缓冲区分配(峰值缓冲区数降低 30%–48%)与设备亲和调度(NPU-CPU 切换减少 42%–65%)。

在 WikiText-103 与 GLUE 上,对 125 M–8 B 参数的六大模型家族评估显示,Forge-UGC 编译速度比 OpenVINO 与 ONNX Runtime 快 6.9–9.2 倍,推理延迟降低 18.2%–35.7%,单次推理能耗减少 30.2%–40.9%。精度无损,最大绝对 logit 差低于 2.1e-5,KL 散度低于 8.4e-9。我们还提出融合增益比、编译效率指数与逐 Pass 执行分析,用于系统评估 NPU 编译管线。

查看 arXiv 页面 (https://arxiv.org/abs/2604.16498)
查看 PDF (https://arxiv.org/pdf/2604.16498)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.16498)

在智能体中获取该论文:

hf papers read 2604.16498

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2604.16498 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.16498 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2604.16498 即可在此页面显示链接。

包含该论文的合集 0

暂集合辑包含该论文

将该论文添加到合集 (https://huggingface.co/new-collection) 即可在此页面显示链接。

相似文章

KForge:面向AI加速器的LLM驱动跨平台内核生成

arXiv cs.LG

KForge是一个跨平台框架,利用两个协作的基于LLM的智能体,自动生成和优化适用于多种AI加速器的高性能计算内核,在NVIDIA B200和Intel Arc B580硬件上实现了显著的加速效果。

优化模型以快速进行代码生成(8分钟阅读)

TLDR AI

Morph LLC描述了三种关键技术——基于编码输出训练投机模型、在廉价GPU上自动搜索内核、以及编写自定义互连——以大幅加速像Qwen和DeepSeek这样的开放模型在编码代理工作负载上的运行,实现了最高3倍的投机解码加速,并在7000美元的GPU上达到97-162 tok/s。

GamerForge

Product Hunt

GamerForge 是一款AI驱动的工具,可转换游戏、CGI和VFX资产,让创作者能够高效地增强和编辑数字资产。

一个可定制的编译器,用于为AI模型生成高效的融合GPU内核 [P]

Reddit r/MachineLearning

作者介绍了一款用 Python 编写、高度可定制且易于修改的 ML 编译器。该编译器通过多级 IR 流水线将 LLMs 转换为优化的 CUDA 内核,在特定操作上实现了与 PyTorch 相当甚至更优的性能。文章详细阐述了该编译器的优化过程、降级规则以及用于生成高效融合 GPU 内核的 CLI 用法。