@rohanpaul_ai: @TensordyneInc 在推理机架方面取得了重大突破。他们刚刚宣布了一款AI推理机架,声称……

X AI KOLs Following 产品

摘要

Tensordyne 发布了 Napier AI 推理机架,声称通过使用对数空间数学来降低能耗和晶体管使用量,其吞吐量是 Nvidia NVL72 GB300 的 13 倍,可能颠覆推理硬件格局。

@TensordyneInc 在推理机架方面取得了重大突破。 他们刚刚宣布了一款AI推理机架,声称基于内部模拟,在与 DeepSeek-R1 的对比中,其机架吞吐量是 NVIDIA NVL72 GB300 的 13 倍。 这之所以意义重大,是因为 Tensordyne 在数学层面攻克推理问题。 AI芯片在搬运和乘法运算上消耗大量能量。 Napier(其AI推理机架)工作在对数空间中,乘法变为加法,而加法在构建、切换、冷却以及每次token重复数十亿次时的成本更低。 因此,Napier 不把大量晶体管预算花在繁重的乘法电路上,而是试图从数学运算本身进行精简。 这意味着用于计算的芯片面积更少,用于 SRAM 的更多,从而每个 token 的功耗更低,在相同机架内可以承载更多的推理任务。 如果他们已经让对数运算足够精确和快速以用于实际推理,那么 Napier 就不仅仅是往机架里塞入更多算力,而是在改变模型服务背后基本运算的成本。 AI 推理不再仅仅是 FLOPS 竞赛。它是一场机架级别的较量,涉及功耗、内存局部性、互连延迟,以及在经济效益崩溃前能提供多少付费 token。 他们报告称,根据内部模拟,其 TDN 机架在 DeepSeek-R1 上以每秒 210 个 token 的用户速度达到了每秒 363,000 个 token,相比之下,Nvidia 的 NVL72 GB300 为每秒 27,400 个 token。 1.
查看原文
查看缓存全文

缓存时间: 2026/06/17 19:59

来自 @TensordyneInc 的重大推理机架突破。

他们刚刚发布了一款 AI 推理机架,据内部模拟对比,在处理 DeepSeek-R1 时,其机架吞吐量是 NVIDIA NVL72 GB300 的 13 倍。

这一突破之所以重要,是因为 Tensordyne 从数学层面攻克了推理难题。

AI 芯片在数字移动和乘法运算上消耗了大量能量。

Napier(其 AI 推理机架)工作于对数空间,在该空间中乘法变为加法,而加法的构建、切换、散热成本更低,且每个 token 可重复数十亿次。

因此,Napier 并未将大量晶体管预算花在沉重的乘法电路上,而是尝试从数学本身做减法。

这意味着用于计算的芯片面积更少,留给 SRAM 的面积更多,从而每个 token 的功耗更低,相同的机架能容纳更多推理能力。

如果 Napier 已将对数数学优化到足够精确和快速以用于真实推理,那么它不仅是在机架中堆叠更多算力,更是改变了模型服务背后基本运算的成本。

AI 推理不再仅仅是 FLOPS 的竞赛。这是一场机架级别的较量,关乎功耗、内存局部性、互连延迟以及在经济学失效前能服务多少付费 token。

根据内部模拟,他们报告称 TDN 机架在 DeepSeek-R1 上达到了每秒 363,000 个 token,用户速度为每秒 210 个 token,而 NVIDIA 的 NVL72 GB300 为每秒 27,400 个 token。

相似文章

推理的变革(阅读时长约 8 分钟)

TLDR AI

本文分析了 Cerebras 即将进行的 IPO,将其视为 AI 硬件领域“推理变革”的信号。文章指出,尽管 Nvidia 在基于 GPU 的训练领域占据主导地位,但为了支持推理工作负载,AI 算力的未来正变得越来越异构。