标签
文章质疑为何像BitNet这样的三进制语言模型在初期显示出潜力后,却未能扩展到超过2B参数,并讨论了开放权重AI实验室明显缺乏进展的情况。
关于缺乏一个社区项目来在消费级硬件(8GB显存)上使用BitNet和Muon等现代技术从头训练LLM的讨论,提议合作构建这样一个项目。
OpenBMB发布的新BitCPM4-CANN模型(1B、3B、8B),已上架Hugging Face;等待llamacpp支持以进行测试。