@bookwormengr: 关于CANN(华为版的CUDA)及DeepSeek V4在华为芯片上推理的精彩报道……“CANN(神经网络计算架构)
摘要
华为已开源其CANN软件工具包,以与Nvidia的CUDA竞争,而DeepSeek V4在华为昇腾芯片上显示出显著的推理性能提升。
查看缓存全文
缓存时间: 2026/06/10 11:49
关于CANN(华为版CUDA)以及DeepSeek V4在华为芯片上的推理表现,这是一篇非常精彩的报道……
“CANN(神经网络计算架构)是华为在其自研昇腾芯片上运行AI工作负载的软件工具包。自2025年8月起,华为将CANN开源,旨在吸引更多开发者,并逐步削弱英伟达的主导地位——尤其在中国市场,因为美国政府严格限制搭载CUDA的芯片向中国出口。”
SemiAnalysis (@SemiAnalysis_): DeepSeekV4 1.6T 从第0天到第43天的性能变化 —— 华为、GB300 NVL72、MI355X、B200 第0天在InferenceX上的推理性能 26天内性能提升100倍 每百万Token成本 华为950DT推理跟踪分析
相似文章
又一个‘DeepSeek时刻’?分析师称华为里程碑改变中国芯片竞赛轨迹
华为推出Tau缩放定律,这是一种绕过美国制裁的芯片架构变通方案,旨在到2031年实现相当于1.4纳米工艺的晶体管密度,标志着中国半导体自给自足迈出重要一步,并改变了与华盛顿的技术竞争格局。
@rohanpaul_ai: 路透社:DeepSeek 已将其 V4-Pro 的价格削减永久化,将价格降至原始 API 成本的 25%。Deep…
路透社报道称,DeepSeek 已将其 V4-Pro API 的价格削减永久化,成本降至原价的 25%,这归因于在中国 AI 硬件战略背景下,从英伟达芯片转向华为芯片。
@rohanpaul_ai:BitCPM-CANN 成为全球首个完全基于中国自主研发AI基础设施训练并开源的1.58位三值LLM
BitCPM-CANN 是首个在完全基于中国自主研发AI基础设施(华为昇腾910B)上训练的开源1.58位三值大语言模型,实现了极致的存储缩减,适用于边缘部署。
在本地用4张老款RTX 2080 Ti运行DeepSeek-V4(2000美元预算配置)。自定义图灵内核、W8A8量化,以及255个预填充token/秒!
一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash(总计284B,激活13B),通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。
@mark_k: 关于DeepSeek AI(@deepseek_ai)的一篇引人入胜且非常深刻的分析文章。你绝对猜不到他们的策略是什么……
对DeepSeek AI非常规策略的分析:优先采用激进架构创新(MoE、MLA、engram、mHC),大幅降低计算和内存需求,从而实现长期布局,构建一个10万亿人民币的中国AI硬件生态系统,并追求1万亿美元估值。