@GoodfireAI：神经网络通过旋转形状进行数学运算。我们发现了一个隐藏在大语言模型中的旋转形状计算器——而且它被用于……

X AI KOLs Following 2026/05/14 16:29 论文

neural-networks llm interpretability mathematics rotation research

摘要

GoodfireAI发现，神经网络通过旋转形状进行数学运算，并在一个大语言模型中发现了一个旋转形状计算器，该计算器不仅用于数学。

神经网络通过旋转形状进行数学运算。我们发现了一个隐藏在大语言模型中的旋转形状计算器——而且它不仅仅用于数学！（1/6）https://t.co/yeZGMFvgHr

查看原文

查看缓存全文

缓存时间: 2026/05/15 15:06

神经网络通过旋转形状来做数学。

我们在一个大语言模型内部发现了一个隐藏的形状旋转计算器——而且它不仅仅用于数学！（1/6）

Llama 是如何编码数字的？不是用数轴或二进制，而是将数字表示为多个平行圆上的位置。

这听起来可能有点奇怪，但这不过是傅里叶分解（一种常见的数学方法）。先前的研究表明，这种现象在所有大语言模型中普遍存在！（2/6）

这些圆构成了模型几何“计算器”的输入和输出。

要计算两个数相加，计算器会并行处理多个小问题，每个圆对应一个。

每个圆都有自己的加法问题。（3/6）

同一个计算器还能处理多种任务，包括：

算术（“7+9”）
星期（“星期五之后九天”）
月份（“八月之后六个月”）

Llama 在训练过程中从零开始构建了这一机制，并以惊人的优雅和灵活性加以运用。（4/6）

我们如何知道 Llama 真的在使用这个几何计算器？

我们可以进行干预，操控网络内部的圆，观察答案的变化。

证据就藏在操控之中。（5/6）

这让我们一窥神经几何如何帮助我们发现原本可能错过的机制——在这里就是神经计算。

理解这种机制为更好地调试、控制和设计 AI 铺平了道路。

阅读完整文章：https://goodfire.ai/research/a-geometric-calculator… （6/6）

我现在就要给办公室弄一个。

它们确实是在旋转形状。

我们是因果证据的忠实粉丝 :)

感谢阅读。很快会有更多内容！

一路全是圆。

我们也这么认为！

有趣的假设！层归一化的作用确实被低估了。

傅里叶也会这么想。

事实证明，加法模块始终使用十进制，即使对于月份/小时/星期也是如此。

是的！完整论文在这里。

相似文章

@GoodfireAI：神经网络可能说英语，但它们用形状思考。理解它们丰富的神经几何是…

X AI KOLs Timeline

Goodfire AI宣布了一项新的研究议程，专注于神经几何，以提升对神经网络的理解、调试和控制。

我构建了一个开源的神经网络形状验证器 [P]

Reddit r/MachineLearning

作者构建并分享了一个用于验证神经网络形状的开源工具。

@DanKornas: 当你能逐单元格查看数学时，神经网络更容易理解。ai-by-hand-excel是一个Excel练习集合……

X AI KOLs Timeline

ai-by-hand-excel是一个开源的Excel工作簿集合，通过让用户逐单元格查看数学运算来教授神经网络、反向传播和transformers等AI概念，使模型内部机制更直观。

@TensorTonic: 7个机器学习工程师每天使用但几乎没人真正推导的数学概念：1. 为什么梯度下降沿着……移动

X AI KOLs Timeline

这条推文列出了机器学习工程师每天使用的7个基础数学概念，并简要强调了这些概念背后的推导过程，例如为什么梯度下降沿着最陡方向移动，以及为什么softmax加交叉熵会产生一个干净的梯度。

@AnimaAnandkumar: 神经算子 – 将流行神经网络转换为神经算子用于科学建模扩展神经网…

X AI KOLs Timeline

本文提出了将流行神经网络架构（CNNs、GNNs、Transformers）转换为神经算子的原则性方法，这些神经算子学习无限维函数空间之间的映射，使得在不同离散化下进行科学建模时能够获得一致的预测。发表于《Nature Machine Intelligence》。

相似文章

@GoodfireAI：神经网络可能说英语，但它们用形状思考。理解它们丰富的*神经几何*是…

我构建了一个开源的神经网络形状验证器 [P]

@DanKornas: 当你能逐单元格查看数学时，神经网络更容易理解。ai-by-hand-excel是一个Excel练习集合……

@TensorTonic: 7个机器学习工程师每天使用但几乎没人真正推导的数学概念：1. 为什么梯度下降沿着……移动

@AnimaAnandkumar: 神经算子 – 将流行神经网络转换为神经算子用于科学建模 扩展神经网…

提交意见反馈

@GoodfireAI：神经网络可能说英语，但它们用形状思考。理解它们丰富的神经几何是…

@AnimaAnandkumar: 神经算子 – 将流行神经网络转换为神经算子用于科学建模扩展神经网…