构建了一个AI加速器并将其开源。[P]
摘要
作者开源了一个在FPGA上实现的自定义AI加速器(atik),原生支持BF16和注意力机制,展示了在各种模型上相比PyTorch的显著加速效果。
当前开源AI加速器领域存在巨大空白,因此我实现了我自己的[加速器](https://github.com/AhmedZeer/atik)。市面上流行且知名的加速器已经过时,不支持注意力机制等当代运算。以下是我这款加速器的独特之处:
* **注意力**机制直接集成到硅片中
* 在**FPGA**(AWS F2)上完成端到端原型设计
* 与基于**PyTorch**的工作负载进行了基准测试
* 基于**RocketChip**架构(RISC-V)
* 原生支持**BF16**
* 在普通注意力机制上实现最高**225倍**加速
* 在TinyBERT上实现最高**96倍**加速
* 在ViT上实现最高**50倍**加速
* 在GPT-2预填充上实现最高**30倍**加速
如果您能查看该[仓库](https://github.com/AhmedZeer/atik)并给我反馈,我将不胜感激!
相似文章
AccelOpt:一种用于AI加速器内核优化的自我改进LLM智能体系统
AccelOpt是一种自我改进的LLM智能体系统,通过迭代生成和优化记忆自主优化AI加速器内核,在AWS Trainium上实现了49%至61%的峰值吞吐量提升,同时比Claude Sonnet 4便宜26倍。
一个可定制的编译器,用于为AI模型生成高效的融合GPU内核 [P]
作者介绍了一款用 Python 编写、高度可定制且易于修改的 ML 编译器。该编译器通过多级 IR 流水线将 LLMs 转换为优化的 CUDA 内核,在特定操作上实现了与 PyTorch 相当甚至更优的性能。文章详细阐述了该编译器的优化过程、降级规则以及用于生成高效融合 GPU 内核的 CLI 用法。
OpenAI 和 Broadcom 宣布战略合作,部署 10 吉瓦 OpenAI 设计的 AI 加速器
OpenAI 和 Broadcom 宣布了多年战略合作,共同开发和部署 10 吉瓦的定制 AI 加速器和网络系统,部署将于 2026 年中期开始,2029 年底完成。这一合作伙伴关系使 OpenAI 能够设计加速器,将前沿模型开发中的学习直接嵌入到硬件中。
为Orange Pi AIPro(Ascend 310B)上的MiniCPM-V 4.6编写自定义C++引擎以绕过框架开销
为Orange Pi AIPro(Ascend 310B NPU)上的MiniCPM-V 4.6开发了自定义C++推理引擎,通过为matmul和causal-conv1d编写优化的AscendC内核,实现了相比原始框架2倍的加速,达到5.90 tokens/s。
我为Apple Silicon打造了最快的本地AI引擎。专为代理式使用优化。
作者宣布发布'lightning-mlx',这是一个针对Apple Silicon优化的本地AI引擎,可为编码代理和工具调用工作流实现高令牌速度。