Tensordyne 发布对数AI计算芯片：每瓦特令牌数比NVIDIA Blackwell多17倍，吞吐量高13倍。

Reddit r/singularity 2026/06/15 21:30 产品

logarithmic-compute ai-chips hardware-efficiency inference-acceleration log-math tensordyne next-gen-compute

摘要

Tensordyne 宣布了一项突破性推理系统，在硬件中使用对数数学，声称每瓦特令牌数比NVIDIA Blackwell多17倍，吞吐量高13倍，这是通过将对数空间中的复杂乘法替换为简单加法实现的。

在此阅读他们的新闻稿：[Tensordyne Announces Breakthrough Inference System to End AI’s Speed vs. Cost Trade-Off — Tensordyne](https://www.tensordyne.ai/stories/tensordyne-announces-breakthrough-inference-system-to-end-ais-speed-vs-cost-trade-off) 图片取自他们的预告页面：[Tensordyne — Inference System](https://www.tensordyne.ai/inference-system) 他们声称已经实现的关键数学突破是在硬件中高效进行对数运算。基本上，当你在对数空间中操作时，乘法变成加法，而加法在硬件上实现比乘法电路容易得多，需要的晶体管少得多——因此占用空间和能耗也更少。我请Claude给出了一段简要解释： >**核心思想：对数数字系统（LNS）** >关键洞察来自对数的一个基本性质： >***log(A × B) = log(A) + log(B)*** >与将数字存储为常规浮点值不同，Tensordyne将它们表示在对数域中——通常以2为底，因为这能自然地映射到数字硬件。在这种表示下，乘法变为加法：A × B 变成 log(A) + log(B)。 >对硬件来说，这是个大事：加法器电路比乘法器电路小得多，功耗也低得多，因此直接减少了芯片面积和功耗。 >**这对AI为何重要** >AI的核心是矩阵运算——乘法和加法。每次模型生成一个token，它都会执行大量操作。传统上，这些操作通过浮点运算完成（因此行业术语称为"FLOPs"）。但浮点运算要求高：能耗大、占用大量硅片面积、推高系统成本。由于AI计算主要由矩阵乘法组成，将其替换为对数域加法将大幅简化工作负载，使芯片上的功能单元显著更小，并腾出更多芯片面积用于SRAM缓存——从而提升性能和核心利用率，同时降低功耗。 >**难点："加法问题"** >AI数学不仅仅是矩阵乘法。实际上主要是"MAC"（乘累加）指令——在当前的GPU和CPU上，这体现为"FMA"（融合乘加）。也就是说，它既包含乘法也包含加法。 >当已经处于对数空间时，对两个数做简单加法（而非乘法）实际上是难点——你不能直接将对数相加得到和的对数。使用LNS数学的想法并不新颖——人们早在1970年代就开始实验，并且它曾赢得基准测试奖项和效率奖——但它从未成为主流，因为没有好的方法解决这个加法难题。 >Tensordyne声称他们找到了一种在硬件中高效处理这个问题的方法，这是他们没有完全公开的关键差异化因素。 >**硬件回报** >通过用轻量级对数数学加法器替换每个乘法，Tensordyne相比当今的FP8/INT8 GPU释放了芯片计算面积。更少的晶体管意味着芯片运行更凉爽、更节能，而腾出的芯片空间使他们能够塞入额外的张量引擎、更多高带宽SRAM和HBM3e内存，以及高速互联结构。 >他们还声称，其对数数学相对于任何训练过的语言、视觉或视频模型实现了超过99.9%的准确率——在某些情况下甚至拥有比浮点更好的动态范围。 >*简而言之：*这是对百年历史数学（对数）的巧妙应用，应用于一个非常现代的问题。关键在于足够高效地解决对数空间中的加法问题，使其变得实用——这正是他们的秘方所在。

查看原文

Tensordyne 发布对数AI计算芯片：每瓦特令牌数比NVIDIA Blackwell多17倍，吞吐量高13倍。

相似文章

@TensordyneInc: https://x.com/TensordyneInc/status/2066567307984531834

@rohanpaul_ai: @TensordyneInc 在推理机架方面取得了重大突破。他们刚刚宣布了一款AI推理机架，声称……

标准GPU上的实时LLM推理：每请求3k tokens/秒

@HowToAI_: NVIDIA 完成了一项不可能的任务，却无人提及。他们以 4 位精度训练了一个 120 亿参数的 LLM…

NVIDIA Blackwell 在首个自主AI基础设施基准测试中领先

提交意见反馈