构建了一个AI加速器并将其开源。[P]

Reddit r/MachineLearning 工具

摘要

作者开源了一个在FPGA上实现的自定义AI加速器(atik),原生支持BF16和注意力机制,展示了在各种模型上相比PyTorch的显著加速效果。

当前开源AI加速器领域存在巨大空白,因此我实现了我自己的[加速器](https://github.com/AhmedZeer/atik)。市面上流行且知名的加速器已经过时,不支持注意力机制等当代运算。以下是我这款加速器的独特之处: * **注意力**机制直接集成到硅片中 * 在**FPGA**(AWS F2)上完成端到端原型设计 * 与基于**PyTorch**的工作负载进行了基准测试 * 基于**RocketChip**架构(RISC-V) * 原生支持**BF16** * 在普通注意力机制上实现最高**225倍**加速 * 在TinyBERT上实现最高**96倍**加速 * 在ViT上实现最高**50倍**加速 * 在GPT-2预填充上实现最高**30倍**加速 如果您能查看该[仓库](https://github.com/AhmedZeer/atik)并给我反馈,我将不胜感激!
查看原文

相似文章

一个可定制的编译器,用于为AI模型生成高效的融合GPU内核 [P]

Reddit r/MachineLearning

作者介绍了一款用 Python 编写、高度可定制且易于修改的 ML 编译器。该编译器通过多级 IR 流水线将 LLMs 转换为优化的 CUDA 内核,在特定操作上实现了与 PyTorch 相当甚至更优的性能。文章详细阐述了该编译器的优化过程、降级规则以及用于生成高效融合 GPU 内核的 CLI 用法。