@TensordyneInc: https://x.com/TensordyneInc/status/2066567307984531834

X AI KOLs Following 2026/06/15 17:03 产品

inference hardware ai-acceleration moe-models reasoning-models logarithmic-math silicon

摘要

Tensordyne推出了Napier，一种在硅片上使用对数数学的推理系统，声称对MoE和推理模型有巨大的效率提升，并采用风冷机架。

https://t.co/s5e3TQ6E9Z

查看原文

查看缓存全文

缓存时间: 2026/06/16 21:39

AI速度与成本的权衡已正式终结

目前，开发者被迫在超快速推理和实际盈利能力之间做出选择。

我们构建了一个能同时实现这两者的系统。

隆重介绍 Tensordyne Napier——全球首个将对数数学直接嵌入硅片的推理系统。通过从数学底层重新设计AI计算，我们改变了速度和效率的行业标准。

单个 Tensordyne 机架能带来什么：

大规模 2T MoE 模型： 仅需 1 个机架，功耗 120 kW，即可实现每秒 1000 token 的处理速度（而传统基础设施需要 9–14 个机架，功耗高达 1.5 MW）。
下一代推理（DeepSeek-R1）： 相比 Nvidia NVL72 GB300，可提供 13 倍以上的每秒 token 数和 17 倍以上的每兆瓦 token 数。
无缝部署： 提供 608 PFLOPS 的 FP8 算力，同时保持 100% 风冷。可直接放入现有标准机架，无需改造数据中心。
核心收益： 相比传统方案，单个机架每年可多创造高达 3300 万美元的营收。

快速且低成本的AI已经到来。

我们正在加速生产，预计年底前实现量产。

更多信息请访问 www.tensordyne.ai

2:13

相似文章

@rohanpaul_ai: @TensordyneInc 在推理机架方面取得了重大突破。他们刚刚宣布了一款AI推理机架，声称……

X AI KOLs Following

Tensordyne 发布了 Napier AI 推理机架，声称通过使用对数空间数学来降低能耗和晶体管使用量，其吞吐量是 Nvidia NVL72 GB300 的 13 倍，可能颠覆推理硬件格局。

Tensordyne 发布对数AI计算芯片：每瓦特令牌数比NVIDIA Blackwell多17倍，吞吐量高13倍。

Reddit r/singularity

Tensordyne 宣布了一项突破性推理系统，在硬件中使用对数数学，声称每瓦特令牌数比NVIDIA Blackwell多17倍，吞吐量高13倍，这是通过将对数空间中的复杂乘法替换为简单加法实现的。

@LinQingV: 之前做LLM推理芯片架构探索的时候，我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重，但底层逻辑都在同一个框架里：片上大SRAM + dataf…

X AI KOLs Timeline

The article analyzes the AI inference ASIC architectures of Groq, SambaNova, Tenstorrent, and Cerebras, highlighting Cerebras's unique wafer-scale engine design. It discusses the benefits of deterministic latency and high bandwidth for LLM inference, while noting challenges like yield, cost, and KV cache bottlenecks.

@HotAisle: 太棒了。我想知道他们用的是谁的 MI300x... ;-)

X AI KOLs Following

Kog 宣布在标准数据中心 GPU 上实现每请求每秒 3000+ 输出令牌的实时大语言模型推理，将此前仅限于定制芯片的高速推理引入生产硬件。

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face

Reddit r/LocalLLaMA

NVIDIA发布Nemotron-3-Ultra-550B-A55B，这是一个5500亿参数（550亿活跃参数）的前沿大语言模型，采用混合LatentMoE架构，结合Mamba-2、MoE和注意力层，支持高达100万令牌的上下文长度和可配置的推理模式。它支持11种语言，并针对复杂的智能体工作流、长上下文分析和高精度推理进行了优化。