Tensordyne 发布对数AI计算芯片:每瓦特令牌数比NVIDIA Blackwell多17倍,吞吐量高13倍。
摘要
Tensordyne 宣布了一项突破性推理系统,在硬件中使用对数数学,声称每瓦特令牌数比NVIDIA Blackwell多17倍,吞吐量高13倍,这是通过将对数空间中的复杂乘法替换为简单加法实现的。
在此阅读他们的新闻稿:[Tensordyne Announces Breakthrough Inference System to End AI’s Speed vs. Cost Trade-Off — Tensordyne](https://www.tensordyne.ai/stories/tensordyne-announces-breakthrough-inference-system-to-end-ais-speed-vs-cost-trade-off) 图片取自他们的预告页面:[Tensordyne — Inference System](https://www.tensordyne.ai/inference-system) 他们声称已经实现的关键数学突破是在硬件中高效进行对数运算。基本上,当你在对数空间中操作时,乘法变成加法,而加法在硬件上实现比乘法电路容易得多,需要的晶体管少得多——因此占用空间和能耗也更少。我请Claude给出了一段简要解释:
>**核心思想:对数数字系统(LNS)**
>关键洞察来自对数的一个基本性质:
>***log(A × B) = log(A) + log(B)***
>与将数字存储为常规浮点值不同,Tensordyne将它们表示在对数域中——通常以2为底,因为这能自然地映射到数字硬件。在这种表示下,乘法变为加法:A × B 变成 log(A) + log(B)。
>对硬件来说,这是个大事:加法器电路比乘法器电路小得多,功耗也低得多,因此直接减少了芯片面积和功耗。
>**这对AI为何重要**
>AI的核心是矩阵运算——乘法和加法。每次模型生成一个token,它都会执行大量操作。传统上,这些操作通过浮点运算完成(因此行业术语称为"FLOPs")。但浮点运算要求高:能耗大、占用大量硅片面积、推高系统成本。由于AI计算主要由矩阵乘法组成,将其替换为对数域加法将大幅简化工作负载,使芯片上的功能单元显著更小,并腾出更多芯片面积用于SRAM缓存——从而提升性能和核心利用率,同时降低功耗。
>**难点:"加法问题"**
>AI数学不仅仅是矩阵乘法。实际上主要是"MAC"(乘累加)指令——在当前的GPU和CPU上,这体现为"FMA"(融合乘加)。也就是说,它既包含乘法也包含加法。
>当已经处于对数空间时,对两个数做简单加法(而非乘法)实际上是难点——你不能直接将对数相加得到和的对数。使用LNS数学的想法并不新颖——人们早在1970年代就开始实验,并且它曾赢得基准测试奖项和效率奖——但它从未成为主流,因为没有好的方法解决这个加法难题。
>Tensordyne声称他们找到了一种在硬件中高效处理这个问题的方法,这是他们没有完全公开的关键差异化因素。
>**硬件回报**
>通过用轻量级对数数学加法器替换每个乘法,Tensordyne相比当今的FP8/INT8 GPU释放了芯片计算面积。更少的晶体管意味着芯片运行更凉爽、更节能,而腾出的芯片空间使他们能够塞入额外的张量引擎、更多高带宽SRAM和HBM3e内存,以及高速互联结构。
>他们还声称,其对数数学相对于任何训练过的语言、视觉或视频模型实现了超过99.9%的准确率——在某些情况下甚至拥有比浮点更好的动态范围。
>*简而言之:*这是对百年历史数学(对数)的巧妙应用,应用于一个非常现代的问题。关键在于足够高效地解决对数空间中的加法问题,使其变得实用——这正是他们的秘方所在。
相似文章
@TensordyneInc: https://x.com/TensordyneInc/status/2066567307984531834
Tensordyne推出了Napier,一种在硅片上使用对数数学的推理系统,声称对MoE和推理模型有巨大的效率提升,并采用风冷机架。
@rohanpaul_ai: @TensordyneInc 在推理机架方面取得了重大突破。他们刚刚宣布了一款AI推理机架,声称……
Tensordyne 发布了 Napier AI 推理机架,声称通过使用对数空间数学来降低能耗和晶体管使用量,其吞吐量是 Nvidia NVL72 GB300 的 13 倍,可能颠覆推理硬件格局。
标准GPU上的实时LLM推理:每请求3k tokens/秒
Kog AI 发布了 Kog Inference Engine 的技术预览版,通过协同设计模型架构、运行时和底层 GPU 代码,在标准数据中心 GPU 上实现了每请求 3,000 tokens/s 的性能,面向延迟敏感的 AI 代理工作流。
@HowToAI_: NVIDIA 完成了一项不可能的任务,却无人提及。他们以 4 位精度训练了一个 120 亿参数的 LLM…
NVIDIA 利用新的 NVFP4 格式及微缩放技术,以 4 位精度训练了一个 120 亿参数的大语言模型,在几乎不损失智能的同时,内存使用减半、算术速度提升三倍,标志着高效 AI 训练的重大突破。
NVIDIA Blackwell 在首个自主AI基础设施基准测试中领先
NVIDIA Blackwell GB300 NVL72 平台在 Artificial Analysis 的首个自主AI基础设施基准测试 AgentPerf 中领先,每兆瓦可运行的智能体数量是上一代 Hopper 的 20 倍。