标签
AMD Strix Halo 设备上的 NPU 现在可用于 AI 推理,支持混合模式,结合 NPU 和 iGPU 以实现更快的提示处理。Lemonade 和 AMD 的 ROCm 等软件使之成为可能。
逆向工程 Qualcomm NPU 编译器揭示了未文档化的 VTCM 内存管理、基于 MILP 的布局、自动精度更改,以及一个用于边缘部署优化的隐藏分析模拟器(Hextimate)。
Gemma 4 E2B 在采用OpenVINO与LiteRT NPU支持的英特尔AI PC上,实现了预填充速度提升1.3倍、每瓦性能提升2.8倍,从而能够高效运行后台LLM任务。
xdna-top 是一款终端监视器,可在 Ryzen AI Max/Strix Halo 系统上同时显示 NPU 和 iGPU 活动,提供 NPU 计数器增量的真实视图,而非虚假的利用率百分比。
本文介绍了首个完全运行在移动NPU(Snapdragon X Elite上的Qualcomm Hexagon)上的端到端RAG流水线,相比CPU实现了高达18倍的LLM预填充加速和4倍的能耗降低,且无质量退化。
Sipeed新款K3 RISC-V单板计算机配备32GB LPDDR5内存和60 TOPS的NPU,可本地推理大语言模型,速度高达每秒15个token。
关于在AMD Ryzen AI 7 350 NPU上实现峰值TOPS性能的技术深度剖析,与Xilinx AIE-ML v2 AI引擎进行比较,并解释用于矩阵乘法工作负载的硬件架构。
一条推文指出,编码智能体能帮助阐明复杂概念,并以 GPU 与 NPU 在设备上的内存竞争为例,通过代码进行了演示。