BitNet是个死胡同吗？三进制大语言模型发生了什么？

Reddit r/LocalLLaMA 2026/06/08 19:22 新闻

ternary-llms bitnet model-scaling open-weights ai-research

摘要

文章质疑为何像BitNet这样的三进制语言模型在初期显示出潜力后，却未能扩展到超过2B参数，并讨论了开放权重AI实验室明显缺乏进展的情况。

它们曾一度看起来很有前景，但最大的三进制模型仍然是2B。发生了什么？为什么前沿的开放权重AI实验室没有尝试使用它们？

查看原文

相似文章

Hacker News Top

一种使用三值权重（-1、0、1）的高效 AI 模型架构，仅需 1.58 比特/参数即可实现具有竞争力的性能，可部署在极度受限的设备上。

Reddit r/ArtificialInteligence

本文分析了LLM记忆限制，认为真正的个人AI需要单租户权重定制，这与当前多租户云经济模式相冲突，并指出开源权重模型可能是进步的关键来源。

X AI KOLs Following

BitCPM-CANN 是首个在完全基于中国自主研发AI基础设施（华为昇腾910B）上训练的开源1.58位三值大语言模型，实现了极致的存储缩减，适用于边缘部署。

Reddit r/AI_Agents

CETI项目使用大语言模型的架构解码抹香鲸的咔嗒声，揭示了其语音字母表，但也凸显出AI的统计模式匹配缺乏真正的理解。文章认为，AGI需要具身化、多模态的根基，而不仅仅是基于文本的模型扩展。

arXiv cs.CL

本文介绍了 BitLM，一种利用位级连续扩散并行生成多个 Token 的语言模型，旨在克服传统自回归生成的顺序瓶颈，同时保留因果结构。