Tensordyne 发布对数AI计算芯片:每瓦特令牌数比NVIDIA Blackwell多17倍,吞吐量高13倍。

Reddit r/singularity 产品

摘要

Tensordyne 宣布了一项突破性推理系统,在硬件中使用对数数学,声称每瓦特令牌数比NVIDIA Blackwell多17倍,吞吐量高13倍,这是通过将对数空间中的复杂乘法替换为简单加法实现的。

在此阅读他们的新闻稿:[Tensordyne Announces Breakthrough Inference System to End AI’s Speed vs. Cost Trade-Off — Tensordyne](https://www.tensordyne.ai/stories/tensordyne-announces-breakthrough-inference-system-to-end-ais-speed-vs-cost-trade-off) 图片取自他们的预告页面:[Tensordyne — Inference System](https://www.tensordyne.ai/inference-system) 他们声称已经实现的关键数学突破是在硬件中高效进行对数运算。基本上,当你在对数空间中操作时,乘法变成加法,而加法在硬件上实现比乘法电路容易得多,需要的晶体管少得多——因此占用空间和能耗也更少。我请Claude给出了一段简要解释: >**核心思想:对数数字系统(LNS)** >关键洞察来自对数的一个基本性质: >***log(A × B) = log(A) + log(B)*** >与将数字存储为常规浮点值不同,Tensordyne将它们表示在对数域中——通常以2为底,因为这能自然地映射到数字硬件。在这种表示下,乘法变为加法:A × B 变成 log(A) + log(B)。 >对硬件来说,这是个大事:加法器电路比乘法器电路小得多,功耗也低得多,因此直接减少了芯片面积和功耗。 >**这对AI为何重要** >AI的核心是矩阵运算——乘法和加法。每次模型生成一个token,它都会执行大量操作。传统上,这些操作通过浮点运算完成(因此行业术语称为"FLOPs")。但浮点运算要求高:能耗大、占用大量硅片面积、推高系统成本。由于AI计算主要由矩阵乘法组成,将其替换为对数域加法将大幅简化工作负载,使芯片上的功能单元显著更小,并腾出更多芯片面积用于SRAM缓存——从而提升性能和核心利用率,同时降低功耗。 >**难点:"加法问题"** >AI数学不仅仅是矩阵乘法。实际上主要是"MAC"(乘累加)指令——在当前的GPU和CPU上,这体现为"FMA"(融合乘加)。也就是说,它既包含乘法也包含加法。 >当已经处于对数空间时,对两个数做简单加法(而非乘法)实际上是难点——你不能直接将对数相加得到和的对数。使用LNS数学的想法并不新颖——人们早在1970年代就开始实验,并且它曾赢得基准测试奖项和效率奖——但它从未成为主流,因为没有好的方法解决这个加法难题。 >Tensordyne声称他们找到了一种在硬件中高效处理这个问题的方法,这是他们没有完全公开的关键差异化因素。 >**硬件回报** >通过用轻量级对数数学加法器替换每个乘法,Tensordyne相比当今的FP8/INT8 GPU释放了芯片计算面积。更少的晶体管意味着芯片运行更凉爽、更节能,而腾出的芯片空间使他们能够塞入额外的张量引擎、更多高带宽SRAM和HBM3e内存,以及高速互联结构。 >他们还声称,其对数数学相对于任何训练过的语言、视觉或视频模型实现了超过99.9%的准确率——在某些情况下甚至拥有比浮点更好的动态范围。 >*简而言之:*这是对百年历史数学(对数)的巧妙应用,应用于一个非常现代的问题。关键在于足够高效地解决对数空间中的加法问题,使其变得实用——这正是他们的秘方所在。
查看原文

相似文章

标准GPU上的实时LLM推理:每请求3k tokens/秒

Hacker News Top

Kog AI 发布了 Kog Inference Engine 的技术预览版,通过协同设计模型架构、运行时和底层 GPU 代码,在标准数据中心 GPU 上实现了每请求 3,000 tokens/s 的性能,面向延迟敏感的 AI 代理工作流。