@rohanpaul_ai: @TensordyneInc 在推理机架方面取得了重大突破。他们刚刚宣布了一款AI推理机架,声称……
摘要
Tensordyne 发布了 Napier AI 推理机架,声称通过使用对数空间数学来降低能耗和晶体管使用量,其吞吐量是 Nvidia NVL72 GB300 的 13 倍,可能颠覆推理硬件格局。
查看缓存全文
缓存时间: 2026/06/17 19:59
来自 @TensordyneInc 的重大推理机架突破。
他们刚刚发布了一款 AI 推理机架,据内部模拟对比,在处理 DeepSeek-R1 时,其机架吞吐量是 NVIDIA NVL72 GB300 的 13 倍。
这一突破之所以重要,是因为 Tensordyne 从数学层面攻克了推理难题。
AI 芯片在数字移动和乘法运算上消耗了大量能量。
Napier(其 AI 推理机架)工作于对数空间,在该空间中乘法变为加法,而加法的构建、切换、散热成本更低,且每个 token 可重复数十亿次。
因此,Napier 并未将大量晶体管预算花在沉重的乘法电路上,而是尝试从数学本身做减法。
这意味着用于计算的芯片面积更少,留给 SRAM 的面积更多,从而每个 token 的功耗更低,相同的机架能容纳更多推理能力。
如果 Napier 已将对数数学优化到足够精确和快速以用于真实推理,那么它不仅是在机架中堆叠更多算力,更是改变了模型服务背后基本运算的成本。
AI 推理不再仅仅是 FLOPS 的竞赛。这是一场机架级别的较量,关乎功耗、内存局部性、互连延迟以及在经济学失效前能服务多少付费 token。
根据内部模拟,他们报告称 TDN 机架在 DeepSeek-R1 上达到了每秒 363,000 个 token,用户速度为每秒 210 个 token,而 NVIDIA 的 NVL72 GB300 为每秒 27,400 个 token。
相似文章
@TensordyneInc: https://x.com/TensordyneInc/status/2066567307984531834
Tensordyne推出了Napier,一种在硅片上使用对数数学的推理系统,声称对MoE和推理模型有巨大的效率提升,并采用风冷机架。
Tensordyne 发布对数AI计算芯片:每瓦特令牌数比NVIDIA Blackwell多17倍,吞吐量高13倍。
Tensordyne 宣布了一项突破性推理系统,在硬件中使用对数数学,声称每瓦特令牌数比NVIDIA Blackwell多17倍,吞吐量高13倍,这是通过将对数空间中的复杂乘法替换为简单加法实现的。
推理的变革(阅读时长约 8 分钟)
本文分析了 Cerebras 即将进行的 IPO,将其视为 AI 硬件领域“推理变革”的信号。文章指出,尽管 Nvidia 在基于 GPU 的训练领域占据主导地位,但为了支持推理工作负载,AI 算力的未来正变得越来越异构。
@rohanpaul_ai: NVIDIA 刚刚发布了首个代理型 AI 基准测试结果,其中 GB300 NVL72 每兆瓦可运行多达 20 倍以上的编码代理…
NVIDIA 发布了首个代理型 AI 基准测试结果,显示 GB300 NVL72 每兆瓦可运行的编码代理数量比 H200 多出 20 倍,该测试基于 Artificial Analysis 的 AgentPerf 基准。
@rohanpaul_ai: 我不得不亲自测试才相信这难以置信的推理速度。单个用户使用标准数据中心 GPU 达到 3000 tokens/s。…
Kog AI 在 8 块 AMD MI300X GPU 上实现了 3000 tokens/s 的推理速度,在 8 块 NVIDIA H200 上达到 2100 tokens/s,利用了 GPU 令牌生成中隐藏的效率差距。