@TensordyneInc: https://x.com/TensordyneInc/status/2066567307984531834
摘要
Tensordyne推出了Napier,一种在硅片上使用对数数学的推理系统,声称对MoE和推理模型有巨大的效率提升,并采用风冷机架。
查看缓存全文
缓存时间: 2026/06/16 21:39
AI速度与成本的权衡已正式终结
目前,开发者被迫在超快速推理和实际盈利能力之间做出选择。
我们构建了一个能同时实现这两者的系统。
隆重介绍 Tensordyne Napier——全球首个将对数数学直接嵌入硅片的推理系统。通过从数学底层重新设计AI计算,我们改变了速度和效率的行业标准。
单个 Tensordyne 机架能带来什么:
- 大规模 2T MoE 模型: 仅需 1 个机架,功耗 120 kW,即可实现每秒 1000 token 的处理速度(而传统基础设施需要 9–14 个机架,功耗高达 1.5 MW)。
- 下一代推理(DeepSeek-R1): 相比 Nvidia NVL72 GB300,可提供 13 倍以上的每秒 token 数和 17 倍以上的每兆瓦 token 数。
- 无缝部署: 提供 608 PFLOPS 的 FP8 算力,同时保持 100% 风冷。可直接放入现有标准机架,无需改造数据中心。
- 核心收益: 相比传统方案,单个机架每年可多创造高达 3300 万美元的营收。
快速且低成本的AI已经到来。
我们正在加速生产,预计年底前实现量产。
更多信息请访问 www.tensordyne.ai
2:13
相似文章
@rohanpaul_ai: @TensordyneInc 在推理机架方面取得了重大突破。他们刚刚宣布了一款AI推理机架,声称……
Tensordyne 发布了 Napier AI 推理机架,声称通过使用对数空间数学来降低能耗和晶体管使用量,其吞吐量是 Nvidia NVL72 GB300 的 13 倍,可能颠覆推理硬件格局。
Tensordyne 发布对数AI计算芯片:每瓦特令牌数比NVIDIA Blackwell多17倍,吞吐量高13倍。
Tensordyne 宣布了一项突破性推理系统,在硬件中使用对数数学,声称每瓦特令牌数比NVIDIA Blackwell多17倍,吞吐量高13倍,这是通过将对数空间中的复杂乘法替换为简单加法实现的。
@LinQingV: 之前做LLM推理芯片架构探索的时候,我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重,但底层逻辑都在同一个框架里:片上大SRAM + dataf…
The article analyzes the AI inference ASIC architectures of Groq, SambaNova, Tenstorrent, and Cerebras, highlighting Cerebras's unique wafer-scale engine design. It discusses the benefits of deterministic latency and high bandwidth for LLM inference, while noting challenges like yield, cost, and KV cache bottlenecks.
@HotAisle: 太棒了。我想知道他们用的是谁的 MI300x... ;-)
Kog 宣布在标准数据中心 GPU 上实现每请求每秒 3000+ 输出令牌的实时大语言模型推理,将此前仅限于定制芯片的高速推理引入生产硬件。
nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face
NVIDIA发布Nemotron-3-Ultra-550B-A55B,这是一个5500亿参数(550亿活跃参数)的前沿大语言模型,采用混合LatentMoE架构,结合Mamba-2、MoE和注意力层,支持高达100万令牌的上下文长度和可配置的推理模式。它支持11种语言,并针对复杂的智能体工作流、长上下文分析和高精度推理进行了优化。