BitNet是个死胡同吗?三进制大语言模型发生了什么?
摘要
文章质疑为何像BitNet这样的三进制语言模型在初期显示出潜力后,却未能扩展到超过2B参数,并讨论了开放权重AI实验室明显缺乏进展的情况。
它们曾一度看起来很有前景,但最大的三进制模型仍然是2B。发生了什么?为什么前沿的开放权重AI实验室没有尝试使用它们?
相似文章
Ternary Bonsai:1.58 比特下的顶级智能
一种使用三值权重(-1、0、1)的高效 AI 模型架构,仅需 1.58 比特/参数即可实现具有竞争力的性能,可部署在极度受限的设备上。
LLMs与记忆限制——请审阅我的想法
本文分析了LLM记忆限制,认为真正的个人AI需要单租户权重定制,这与当前多租户云经济模式相冲突,并指出开源权重模型可能是进步的关键来源。
@rohanpaul_ai:BitCPM-CANN 成为全球首个完全基于中国自主研发AI基础设施训练并开源的1.58位三值LLM
BitCPM-CANN 是首个在完全基于中国自主研发AI基础设施(华为昇腾910B)上训练的开源1.58位三值大语言模型,实现了极致的存储缩减,适用于边缘部署。
自回归大语言模型正式与鱼共眠(Yann LeCun是对的)
CETI项目使用大语言模型的架构解码抹香鲸的咔嗒声,揭示了其语音字母表,但也凸显出AI的统计模式匹配缺乏真正的理解。文章认为,AGI需要具身化、多模态的根基,而不仅仅是基于文本的模型扩展。
BitLM:利用位级连续扩散解锁多 Token 语言生成
本文介绍了 BitLM,一种利用位级连续扩散并行生成多个 Token 的语言模型,旨在克服传统自回归生成的顺序瓶颈,同时保留因果结构。