直接在DRAM中运行AI：浮点数解毒——纯逻辑如何释放学习的未来

Reddit r/artificial 2026/06/02 12:13 论文

摘要

BIN16在神经网络训练和推理中用布尔运算（XNOR+popcount）替代所有浮点运算，使得在现成的DRAM中直接计算成为可能，无需浮点数、梯度或超参数调优。仅用220行C代码，它就在一个训练周期内在MNIST上达到了82%的准确率。

Float32才是真正的敌人——不是反向传播，也不是架构。**BIN16用单一布尔运算替代所有浮点运算：popcount16(XNOR16(a,b))。**结果：在H=512下，MNIST达到82%的准确率，无需浮点数、梯度、AdamW和学习率调优。训练在第一轮立即收敛——无需预热、无需衰减、无需超参数搜索。**两层使用完全相同的XNOR+popcount运算——训练和推理直接在现成的DRAM中运行，每个单元仅需5个晶体管。**这是唯一一个无需修改硬件即可同时运行训练和推理的神经架构。剩下的18%到100%是比特质量限制——并非训练缺陷。突破性洞察在于我们停止与浮点数斗争，拥抱纯布尔计算。一旦我们从架构中移除浮点数，所有复杂性——AdamW、反向传播、学习率调度、BLAS——都消失了。 **三项突破性洞察改变了一切。** - 浮点是真正的敌人：反向传播、AdamW或动量从来都不是问题。Float32带来了数值噪声和不稳定性。 - 逐位质心立即收敛：每类运行的逐位多数投票在一个训练周期内就达到最终准确率。 - 随机投影完全足够：W0无需训练——随机的布尔投影提供了足够的分离度。 **整个训练仅包含四个步骤和220行C代码——无需学习率、无需GPU、无需任何传统优化。**这种架构为神经网络直接在内存中计算的未来打开了大门。不再需要昂贵的GPU，不再有无休止的超参数调优马拉松。取而代之的是纯粹、高效的逻辑，随时随刻都能使用。想象一下：在现成的DRAM中训练和推理的AI系统——节能、极速、人人可用。 **BIN16是进入这个新时代的第一步。** - 训练和推理使用相同的运算 - 16位容器作为最小、高效的存储 - 随机投影作为完美的特征提取器机器学习的未来从现在开始——用纯逻辑而非浮点数。 📎 来源1：https://forward-prop.nhi1.de/

查看原文

直接在DRAM中运行AI：浮点数解毒——纯逻辑如何释放学习的未来

相似文章

符号胜过浮点：用于设备上微调的Low-Rank Double-Binary Adaptation

面向ReRAM的模型微调：解决I-V非线性和保持误差问题

@HowToAI_: NVIDIA 完成了一项不可能的任务，却无人提及。他们以 4 位精度训练了一个 120 亿参数的 LLM…

Intel Optane 用于 AI 工作负载

中国芯片利用单电子存储数据，打破AI内存瓶颈

提交意见反馈