Forge-UGC:面向通用图编译器的 FX 优化与寄存器图引擎
摘要
Forge-UGC 是一个四阶段通用图编译器,可在 NPU 上加速 Transformer 部署,相比 OpenVINO/ONNX Runtime,编译时间缩短 6.9–9.2 倍,推理延迟降低 18–36%,能耗减少 30–41%。
查看缓存全文
缓存时间: 2026/04/21 15:38
论文页面 - Forge-UGC:面向通用图编译的 FX 优化与寄存器图引擎
来源:https://huggingface.co/papers/2604.16498
摘要
Forge-UGC 是一个四阶段编译器,可在异构硬件上高效部署 Transformer,与现有框架相比,编译速度更快、推理延迟更低、能耗更少。
我们提出 Forge-UGC(FX Optimization and Register-Graph Engine for Universal Graph Compilation),一个面向异构加速器硬件(已在 Intel AI Boost NPU 验证)的 Transformer 部署四阶段编译器。现有框架如 OpenVINO 与 ONNX Runtime 常采用不透明编译管线,Pass 级可见性有限且缓冲区管理薄弱,导致编译开销与运行时开销偏高。Forge-UGC 采用硬件无关设计,将图捕获、优化、中间表示下沉与后端调度四阶段解耦:
- 阶段 1 在 ATen 算子级使用 torch.export 捕获计算图,原生支持现代 Transformer 组件(旋转位置编码、分组查询注意力、SwiGLU),无需手工分解。
- 阶段 2 执行六种优化 Pass:死代码消除、公共子表达式消除、常量折叠、注意力融合、算子融合与布局优化,图节点数减少 14.2%–21.9%。
- 阶段 3 将优化后的图下沉至带显式虚拟寄存器分配的强类型中间表示。
- 阶段 4 进行活跃变量分析、线性扫描缓冲区分配(峰值缓冲区数降低 30%–48%)与设备亲和调度(NPU-CPU 切换减少 42%–65%)。
在 WikiText-103 与 GLUE 上,对 125 M–8 B 参数的六大模型家族评估显示,Forge-UGC 编译速度比 OpenVINO 与 ONNX Runtime 快 6.9–9.2 倍,推理延迟降低 18.2%–35.7%,单次推理能耗减少 30.2%–40.9%。精度无损,最大绝对 logit 差低于 2.1e-5,KL 散度低于 8.4e-9。我们还提出融合增益比、编译效率指数与逐 Pass 执行分析,用于系统评估 NPU 编译管线。
查看 arXiv 页面 (https://arxiv.org/abs/2604.16498)
查看 PDF (https://arxiv.org/pdf/2604.16498)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.16498)
在智能体中获取该论文:
hf papers read 2604.16498
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型引用该论文
在模型 README.md 中引用 arxiv.org/abs/2604.16498 即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集引用该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.16498 即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 引用该论文
在 Space README.md 中引用 arxiv.org/abs/2604.16498 即可在此页面显示链接。
包含该论文的合集 0
暂集合辑包含该论文
将该论文添加到合集 (https://huggingface.co/new-collection) 即可在此页面显示链接。
相似文章
基准测试:仅限CPU硬件上Parakeet TDT 0.6B的ONNX Runtime、HF Transformers与GGUF对比 [D]
一项针对仅CPU硬件上Parakeet TDT 0.6B ASR模型的ONNX Runtime、HF Transformers与GGUF的基准测试显示,ONNX Runtime的推理速度比HF Transformers bfloat16快37%,而GGUF则优先考虑内存效率。
KForge:面向AI加速器的LLM驱动跨平台内核生成
KForge是一个跨平台框架,利用两个协作的基于LLM的智能体,自动生成和优化适用于多种AI加速器的高性能计算内核,在NVIDIA B200和Intel Arc B580硬件上实现了显著的加速效果。
优化模型以快速进行代码生成(8分钟阅读)
Morph LLC描述了三种关键技术——基于编码输出训练投机模型、在廉价GPU上自动搜索内核、以及编写自定义互连——以大幅加速像Qwen和DeepSeek这样的开放模型在编码代理工作负载上的运行,实现了最高3倍的投机解码加速,并在7000美元的GPU上达到97-162 tok/s。
GamerForge
GamerForge 是一款AI驱动的工具,可转换游戏、CGI和VFX资产,让创作者能够高效地增强和编辑数字资产。
一个可定制的编译器,用于为AI模型生成高效的融合GPU内核 [P]
作者介绍了一款用 Python 编写、高度可定制且易于修改的 ML 编译器。该编译器通过多级 IR 流水线将 LLMs 转换为优化的 CUDA 内核,在特定操作上实现了与 PyTorch 相当甚至更优的性能。文章详细阐述了该编译器的优化过程、降级规则以及用于生成高效融合 GPU 内核的 CLI 用法。