趋同演化：不同语言模型如何学会相似的数字表征

Hugging Face Daily Papers 2026/04/22 00:00 论文

摘要

研究发现，尽管架构各异，语言模型在表示数字时会独立演化出相似的周期傅里叶特征，其中只有部分模型在模运算中实现了几何可分性。

在天然文本上训练的语言模型，会用周期特征表示数字，其傅里叶域主导周期为 T=2、5、10。本文发现这些特征存在两级层次：无论 Transformer、线性 RNN、LSTM，还是不同方式训练的经典词嵌入，它们的傅里叶域均出现周期 T 尖峰；然而，只有部分模型进一步学到几何可分特征，可线性分类数字的模 T 余数。为解释这一矛盾，我们证明傅里叶域稀疏是几何可分的必要非充分条件。实验上，我们考察训练过程中何时产生几何可分特征，发现数据、架构、优化器与分词器都起关键作用。特别地，我们识别出两条获得几何可分特征的途径：一是利用通用语言数据中的互补共现信号，包括文本-数字共现与跨数字交互；二是通过多令牌（而非单令牌）加法任务。总体而言，结果揭示了特征学习中的趋同演化现象：多种模型在不同训练信号下竟学会相似特征。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/23 03:35

论文页面 - 趋同演化：不同语言模型如何学到相似的数字表征

来源：https://huggingface.co/papers/2604.20817

摘要

Transformers 及其他语言模型在傅里叶域中表现出周期性数字表征，部分模型还能形成几何可分的特征，从而线性地对“模 T”数字进行分类，但仅凭傅里叶稀疏性不足以实现这种可分性。

在自然文本上训练的语言模型，会以周期特征来表征数字，其主导周期为 T=2、5、10。本文发现这些特征存在“两层级”结构：尽管 Transformers、Linear RNNs、LSTMs 以及经典词嵌入等不同架构、不同训练方式的模型，都会在傅里叶域学到周期-T 尖峰，但只有部分模型能进一步形成几何可分特征，用于线性 mod-T 分类。为解释这一矛盾，我们证明：傅里叶域稀疏性是 mod-T 几何可分性的必要条件，却非充分条件。

实证上，我们探究了何种训练条件能孕育几何可分特征，发现数据、架构、优化器与分词器均起关键作用。尤其指出，模型可通过两条路径获得几何可分特征：

从通用语言数据中的互补共现信号学习，包括文本-数字共现与跨数字交互；
从多词元（而非单词元）加法任务中学习。

总体而言，我们的结果揭示了特征学习中的“趋同演化”现象：多种模型在不同训练信号下，竟学到相似的特征。

查看 arXiv 页面 (https://arxiv.org/abs/2604.20817)
查看 PDF (https://arxiv.org/pdf/2604.20817)
项目主页 (https://convergent-evolution.github.io/)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.20817)

在本地 agent 中获取该论文：

hf papers read 2604.20817

CLI 不是最新版？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接该论文

在模型 README.md 中引用 arxiv.org/abs/2604.20817，即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.20817，即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 链接该论文

在 Space README.md 中引用 arxiv.org/abs/2604.20817，即可在此页面显示链接。

趋同演化：不同语言模型如何学会相似的数字表征

论文页面 - 趋同演化：不同语言模型如何学到相似的数字表征

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

收录该论文的合集 1

相似文章

神经语言模型的缩放规律

语言模型学习什么以及何时学习？隐性课程假设

揭示大语言模型中的数学推理：内部机制的方法学研究

Brain Score 追踪语言的共享属性：来自多种自然语言和结构序列的证据

LLM神经解剖学第三部分 - LLMs似乎以几何而非语言思考

提交意见反馈