Bit-Mass理论——容器原理

Reddit r/artificial 2026/05/31 16:44 论文

neural-networks bit-mass model-compression binary-networks hebbian-learning mnist

摘要

Bit-Mass理论提出，决定模型准确率的是权重位的总数，而非计算格式。在MNIST上的实验表明，相同的Bit-Mass下，二进制网络与浮点网络性能相当。

**Bit-Mass决定信息容量，进而决定模型准确率，而非所选的计算格式。** 此处介绍的Bit-Mass理论以权重位的总数为核心量，重新审视神经网络。在MNIST上，使用相同的203264位Bit-Mass，Float32矩阵乘法与基于XNOR加Popcount的BV32取得了完全可比的结果。 **三种训练器对比（架构784→8→10，三个周期）：** - 带动量和自适应学习率的AdamW：81.3% - 普通SGD（Float32）：76.0% - BV32-Hebbian（二进制）：76.4% **其他核心发现：** - 在相同Bit-Mass下，Float32容器与二进制容器提供几乎相同的准确率。 - 与AdamW之间的剩余差距完全取决于动量与自适应学习率。 - 仅改变算术运算不会改善结果。每个神经元充当32个二进制决策的容器。因此，传统的神经元视角会导致系统性误判：8个Float神经元在信息上对应256个二进制神经元。这一见解得到了同一权重矩阵的三种等价描述（神经元视角、位视角和数据视角）的支持。需要指出的是，这是一项此前未经同行评审的单一研究，标注为未来日期。多个实验室的独立复现仍然至关重要。尽管如此，该理论为无反向传播的Hebbian更新为何能取得与经典SGD相同的性能提供了一致的解释。历史上，Hebbian规则长期被认为不稳定。本研究显示，更新公式中的一个简单错误导致了超过65个百分点的性能损失。修正后，二进制方法恰好收敛到普通SGD的水平。从架构理论角度来看，一个明确的结论是：性能提升需要要么通过更宽的层增加更多位数，要么通过动量与自适应方法更高效地利用现有位数。计算格式本身是次要的。实验控制程度高：所有训练器使用相同的数据（50,000个MNIST样本）、相同的周期数和相同的架构。仅更新规则不同。这使得效应可以清晰隔离。 **研究的长期意义：** Bit-Mass理论实现了模型的硬件无关可比性。一个具有64个隐藏神经元的宽Float网络与一个具有2048个神经元的二进制网络具有相同的Bit-Mass。这为模型压缩和专用加速器的开发开辟了新途径。总之，该工作为高效神经网络的讨论提供了基于事实的贡献。结果以可复现的方式记录，但在能够谈论广泛有效的范式转变之前，仍需进一步的外部验证。 📎 Source 1: https://forward-prop.nhi1.de/

查看原文

Bit-Mass理论——容器原理

相似文章

2-bit QAT 模型发布

BitNet 文本嵌入

K-Quantization 及其对输出性能的影响

BitsMoE: 基于谱能引导的MoE大语言模型高效量化比特分配

基于平坦度的理论最优量化

提交意见反馈