@rohanpaul_ai:BitCPM-CANN 成为全球首个完全基于中国自主研发AI基础设施训练并开源的1.58位三值LLM

X AI KOLs Following 模型

摘要

BitCPM-CANN 是首个在完全基于中国自主研发AI基础设施(华为昇腾910B)上训练的开源1.58位三值大语言模型,实现了极致的存储缩减,适用于边缘部署。

BitCPM-CANN 刚刚成为全球首个完全基于中国自主研发AI基础设施训练并开源的1.58位三值大语言模型。 该模型由 ModelBest、清华大学和 OpenBMB 社区开发,整个训练流程——从量化算子、算法到全栈框架——均原生运行于华为昇腾910B NPU上。 1.58位三值权重仅使用三种权重状态,因此模型在手机、PC、汽车及本地工业设备上部署时所需内存大幅减少。 更关键的成就在于其背后的训练系统:量化感知训练(QAT)、直通估计器(STE)、低位算子、算法、框架工作以及可复现的训练脚本,都必须在昇腾910B上协同运作。 当硬件成本上升时,胜出的模型并非仅在榜单上得分更高的那一个,而是那些能在现实约束下被训练、复现、部署和改进的模型。
查看原文
查看缓存全文

缓存时间: 2026/05/24 04:16

BitCPM-CANN 刚刚成为全球首个完全基于中国自主研发的 AI 基础设施训练、并开源的 1.58 位三元大语言模型。

该模型由 ModelBest、清华大学和 OpenBMB 社区联合开发,其整个训练流程——从量化算子与算法到全栈框架——均原生运行于华为昇腾 910B NPU 上。

1.58 位三元权重仅使用三种权重状态,因此模型在手机、PC、汽车以及本地工业设备上部署时,所需内存大幅减少。

更难的是其背后的训练系统:QAT、STE、低位算子、算法、框架工作以及可复现的训练脚本,所有这些都必须在昇腾 910B 上协调一致地运行。

当硬件成本上升时,胜出的模型不仅仅是榜单上分数更高的那个,而是能在现实约束下被训练、复现、部署和优化的那个。

OpenBMB (@OpenBMB): 🚀 BitCPM-CANN 由 ModelBest × @Tsinghua_Uni × OpenBMB 联手打造——它无关参数堆叠。 内存成本飞涨,硬件限制日益收紧。边缘AI需要更智能的解决方案——而BitCPM-CANN做到了!🎉

✅ 面向边缘就绪:8B模型流畅运行于

相似文章

Ternary Bonsai:1.58 比特下的顶级智能

Hacker News Top

一种使用三值权重(-1、0、1)的高效 AI 模型架构,仅需 1.58 比特/参数即可实现具有竞争力的性能,可部署在极度受限的设备上。