趋同演化:不同语言模型如何学会相似的数字表征
摘要
研究发现,尽管架构各异,语言模型在表示数字时会独立演化出相似的周期傅里叶特征,其中只有部分模型在模运算中实现了几何可分性。
查看缓存全文
缓存时间: 2026/04/23 03:35
论文页面 - 趋同演化:不同语言模型如何学到相似的数字表征
来源:https://huggingface.co/papers/2604.20817
摘要
Transformers 及其他语言模型在傅里叶域中表现出周期性数字表征,部分模型还能形成几何可分的特征,从而线性地对“模 T”数字进行分类,但仅凭傅里叶稀疏性不足以实现这种可分性。
在自然文本上训练的语言模型,会以周期特征来表征数字,其主导周期为 T=2、5、10。本文发现这些特征存在“两层级”结构:尽管 Transformers、Linear RNNs、LSTMs 以及经典词嵌入等不同架构、不同训练方式的模型,都会在傅里叶域学到周期-T 尖峰,但只有部分模型能进一步形成几何可分特征,用于线性 mod-T 分类。为解释这一矛盾,我们证明:傅里叶域稀疏性是 mod-T 几何可分性的必要条件,却非充分条件。
实证上,我们探究了何种训练条件能孕育几何可分特征,发现数据、架构、优化器与分词器均起关键作用。尤其指出,模型可通过两条路径获得几何可分特征:
- 从通用语言数据中的互补共现信号学习,包括文本-数字共现与跨数字交互;
- 从多词元(而非单词元)加法任务中学习。
总体而言,我们的结果揭示了特征学习中的“趋同演化”现象:多种模型在不同训练信号下,竟学到相似的特征。
查看 arXiv 页面 (https://arxiv.org/abs/2604.20817)
查看 PDF (https://arxiv.org/pdf/2604.20817)
项目主页 (https://convergent-evolution.github.io/)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.20817)
在本地 agent 中获取该论文:
hf papers read 2604.20817
CLI 不是最新版?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型链接该论文
在模型 README.md 中引用 arxiv.org/abs/2604.20817,即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集链接该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.20817,即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 链接该论文
在 Space README.md 中引用 arxiv.org/abs/2604.20817,即可在此页面显示链接。
收录该论文的合集 1
相似文章
神经语言模型的缩放规律
基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。
语言模型学习什么以及何时学习?隐性课程假设
本文提出隐性课程假设,证明语言模型预训练遵循一个结构化的、组合性的课程,其中能力跨架构一致涌现,并可从内部表示预测。作者通过设计涵盖检索、形态学、共指消解、推理和数学的任务进行验证,发现四个模型族中涌现顺序高度一致(ρ=0.81)。
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
Brain Score 追踪语言的共享属性:来自多种自然语言和结构序列的证据
本文研究了 Brain Score(一个将语言模型表征与人类阅读时 fMRI 激活进行比较的指标)是否真正捕捉到类似人类的语言处理,或仅反映结构相似性。研究人员在多种自然语言和非语言结构数据(基因组、Python、嵌套括号)上训练语言模型,发现在不同语言和非语言序列上训练的模型达到相似的 Brain Score 性能,这表明该指标可能不足以区分人类特有的处理方式。
LLM神经解剖学第三部分 - LLMs似乎以几何而非语言思考
研究人员分析了LLMs在8种语言和多个模型中的内部表示,发现概念思考发生在transformer中间层的几何空间中,且与输入语言无关,这支持了类似于乔姆斯基理论的普遍深层结构假说,而非萨丕尔-沃尔夫语言相对论。