@GoodfireAI:神经网络通过旋转形状进行数学运算。我们发现了一个隐藏在大语言模型中的旋转形状计算器——而且它被用于……
摘要
GoodfireAI发现,神经网络通过旋转形状进行数学运算,并在一个大语言模型中发现了一个旋转形状计算器,该计算器不仅用于数学。
查看缓存全文
缓存时间: 2026/05/15 15:06
神经网络通过旋转形状来做数学。
我们在一个大语言模型内部发现了一个隐藏的形状旋转计算器——而且它不仅仅用于数学!(1/6)
Llama 是如何编码数字的?不是用数轴或二进制,而是将数字表示为多个平行圆上的位置。
这听起来可能有点奇怪,但这不过是傅里叶分解(一种常见的数学方法)。先前的研究表明,这种现象在所有大语言模型中普遍存在!(2/6)
这些圆构成了模型几何“计算器”的输入和输出。
要计算两个数相加,计算器会并行处理多个小问题,每个圆对应一个。
每个圆都有自己的加法问题。(3/6)
同一个计算器还能处理多种任务,包括:
- 算术(“7+9”)
- 星期(“星期五之后九天”)
- 月份(“八月之后六个月”)
Llama 在训练过程中从零开始构建了这一机制,并以惊人的优雅和灵活性加以运用。(4/6)
我们如何知道 Llama 真的在使用这个几何计算器?
我们可以进行干预,操控网络内部的圆,观察答案的变化。
证据就藏在操控之中。(5/6)
这让我们一窥神经几何如何帮助我们发现原本可能错过的机制——在这里就是神经计算。
理解这种机制为更好地调试、控制和设计 AI 铺平了道路。
阅读完整文章:https://goodfire.ai/research/a-geometric-calculator… (6/6)
我现在就要给办公室弄一个。
它们确实是在旋转形状。
我们是因果证据的忠实粉丝 :)
感谢阅读。很快会有更多内容!
一路全是圆。
我们也这么认为!
有趣的假设!层归一化的作用确实被低估了。
傅里叶也会这么想。
事实证明,加法模块始终使用十进制,即使对于月份/小时/星期也是如此。
是的!完整论文在这里。
相似文章
@GoodfireAI:神经网络可能说英语,但它们用形状思考。理解它们丰富的*神经几何*是…
Goodfire AI宣布了一项新的研究议程,专注于神经几何,以提升对神经网络的理解、调试和控制。
@DanKornas: 当你能逐单元格查看数学时,神经网络更容易理解。ai-by-hand-excel是一个Excel练习集合……
ai-by-hand-excel是一个开源的Excel工作簿集合,通过让用户逐单元格查看数学运算来教授神经网络、反向传播和transformers等AI概念,使模型内部机制更直观。
@Raytar: 一位谷歌研究员走进麻省理工,通过在提示中添加七个词让AI正确做数学。这七个词…
一个帖子强调了两个独立的见解:一位谷歌研究员发现,在提示中添加‘你是麻省理工数学家’可以修复大语言模型中的数学错误,而Alex Albert解释了Anthropic如何训练Claude的个性。这两个资源都是免费的,深入探讨了大语言模型的实际工作原理。
@FinanceYF5: 神经网络会说英文,但它们用“形状”思考 1/ 神经网络不是按词思考 它们表面上会说英文,内部却可能是在几何空间里组织信息:曲线、环、曲面、流形。 理解 neural geometry,可能是理解、调试和控制模型的关键。
神经网络表面会说英文,但内部在几何空间里组织信息(曲线、环、曲面、流形),理解“神经几何”可能是理解、调试和控制模型的关键。
@HowToAI_: NVIDIA 完成了一项不可能的任务,却无人提及。他们以 4 位精度训练了一个 120 亿参数的 LLM…
NVIDIA 利用新的 NVFP4 格式及微缩放技术,以 4 位精度训练了一个 120 亿参数的大语言模型,在几乎不损失智能的同时,内存使用减半、算术速度提升三倍,标志着高效 AI 训练的重大突破。