@TensordyneInc: https://x.com/TensordyneInc/status/2066567307984531834

X AI KOLs Following 产品

摘要

Tensordyne推出了Napier,一种在硅片上使用对数数学的推理系统,声称对MoE和推理模型有巨大的效率提升,并采用风冷机架。

https://t.co/s5e3TQ6E9Z
查看原文
查看缓存全文

缓存时间: 2026/06/16 21:39

AI速度与成本的权衡已正式终结

目前,开发者被迫在超快速推理和实际盈利能力之间做出选择。

我们构建了一个能同时实现这两者的系统。

隆重介绍 Tensordyne Napier——全球首个将对数数学直接嵌入硅片的推理系统。通过从数学底层重新设计AI计算,我们改变了速度和效率的行业标准。

单个 Tensordyne 机架能带来什么:

  • 大规模 2T MoE 模型: 仅需 1 个机架,功耗 120 kW,即可实现每秒 1000 token 的处理速度(而传统基础设施需要 9–14 个机架,功耗高达 1.5 MW)。
  • 下一代推理(DeepSeek-R1): 相比 Nvidia NVL72 GB300,可提供 13 倍以上的每秒 token 数17 倍以上的每兆瓦 token 数
  • 无缝部署: 提供 608 PFLOPS 的 FP8 算力,同时保持 100% 风冷。可直接放入现有标准机架,无需改造数据中心。
  • 核心收益: 相比传统方案,单个机架每年可多创造高达 3300 万美元的营收。

快速且低成本的AI已经到来。

我们正在加速生产,预计年底前实现量产。

更多信息请访问 www.tensordyne.ai

2:13

相似文章

@LinQingV: 之前做LLM推理芯片架构探索的时候,我把四大AI推理ASIC公司的架构都翻过一遍。Groq、SambaNova、Tenstorrent、Cerebras。前三家的思路虽然各有侧重,但底层逻辑都在同一个框架里:片上大SRAM + dataf…

X AI KOLs Timeline

The article analyzes the AI inference ASIC architectures of Groq, SambaNova, Tenstorrent, and Cerebras, highlighting Cerebras's unique wafer-scale engine design. It discusses the benefits of deterministic latency and high bandwidth for LLM inference, while noting challenges like yield, cost, and KV cache bottlenecks.

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face

Reddit r/LocalLLaMA

NVIDIA发布Nemotron-3-Ultra-550B-A55B,这是一个5500亿参数(550亿活跃参数)的前沿大语言模型,采用混合LatentMoE架构,结合Mamba-2、MoE和注意力层,支持高达100万令牌的上下文长度和可配置的推理模式。它支持11种语言,并针对复杂的智能体工作流、长上下文分析和高精度推理进行了优化。