BitNet是个死胡同吗?三进制大语言模型发生了什么?

Reddit r/LocalLLaMA 新闻

摘要

文章质疑为何像BitNet这样的三进制语言模型在初期显示出潜力后,却未能扩展到超过2B参数,并讨论了开放权重AI实验室明显缺乏进展的情况。

它们曾一度看起来很有前景,但最大的三进制模型仍然是2B。发生了什么?为什么前沿的开放权重AI实验室没有尝试使用它们?
查看原文

相似文章

Ternary Bonsai:1.58 比特下的顶级智能

Hacker News Top

一种使用三值权重(-1、0、1)的高效 AI 模型架构,仅需 1.58 比特/参数即可实现具有竞争力的性能,可部署在极度受限的设备上。

LLMs与记忆限制——请审阅我的想法

Reddit r/ArtificialInteligence

本文分析了LLM记忆限制,认为真正的个人AI需要单租户权重定制,这与当前多租户云经济模式相冲突,并指出开源权重模型可能是进步的关键来源。

自回归大语言模型正式与鱼共眠(Yann LeCun是对的)

Reddit r/AI_Agents

CETI项目使用大语言模型的架构解码抹香鲸的咔嗒声,揭示了其语音字母表,但也凸显出AI的统计模式匹配缺乏真正的理解。文章认为,AGI需要具身化、多模态的根基,而不仅仅是基于文本的模型扩展。