解决循环:用于语言和推理的吸引子模型

Hugging Face Daily Papers 论文

摘要

本文介绍了吸引子模型,该模型利用定点求解和隐式微分进行高效的迭代优化,在降低计算成本的同时,实现了相较于传统Transformer更优的语言建模和推理性能。

循环Transformer通过迭代优化潜在表示,为纯前馈计算提供了一种有前途的替代方案,从而改善了语言建模和推理。然而,循环架构训练不稳定,优化和部署成本高昂,并且受限于较小的固定循环深度。我们引入了吸引子模型,其中主干模块首先提出输出嵌入,然后吸引子模块通过求解定点来优化它们,并通过隐式微分获得梯度。因此,训练内存随有效深度保持恒定,迭代次数由收敛自适应选择。实验上,吸引子模型在两个领域均优于现有模型:大规模语言模型预训练和小模型推理。在语言建模中,吸引子模型在不同规模上相比标准Transformer和稳定的循环模型实现了帕累托改进,困惑度最多降低46.6%,下游准确率最多提高19.7%,同时降低训练成本。值得注意的是,一个7.7亿参数的吸引子模型优于一个基于两倍于其训练数据量进行训练的13亿参数的Transformer。在具有挑战性的推理任务上,我们展示了仅2700万参数和约1000个示例的模型在Sudoku-Extreme上达到91.4%的准确率,在Maze-Hard上达到93.1%的准确率,其扩展性能良好,而像Claude和GPT o3这样的前沿模型完全失败,专门的递归推理器则在更大规模下崩溃。最后,我们展示了吸引子模型表现出一种新颖现象,我们称之为均衡内化:定点训练将模型的初始输出嵌入置于均衡附近,使得推理时可以移除求解器,而性能下降很小。这些结果共同表明,吸引子模型通过将循环转化为模型可以学习内化的计算,使迭代优化变得可扩展。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 20:14

论文页面 - 求解循环:面向语言与推理的吸引子模型

来源:https://huggingface.co/papers/2605.12466

摘要

吸引子模型通过隐式微分求解不动点实现高效迭代精炼,在语言建模与推理任务上取得优越性能,同时相比传统Transformer显著降低计算成本。

循环Transformer(https://huggingface.co/papers?q=Looped%20Transformers)为纯前馈计算(https://huggingface.co/papers?q=feed-forward%20computation)提供了一种有前景的替代方案,通过迭代精炼潜在表示(https://huggingface.co/papers?q=latent%20representations)来提升语言建模与推理能力。然而,循环架构(https://huggingface.co/papers?q=recurrent%20architectures)在训练上仍不稳定,优化与部署成本高昂,并且受限于固定的小规模循环深度。我们引入了吸引子模型(https://huggingface.co/papers?q=Attractor%20Models),其中主干模块(https://huggingface.co/papers?q=backbone%20module)首先提出输出嵌入,然后吸引子模块(https://huggingface.co/papers?q=attractor%20module)通过求解不动点(https://huggingface.co/papers?q=fixed%20point)来精炼这些嵌入,梯度通过隐式微分(https://huggingface.co/papers?q=implicit%20differentiation)获得。因此,训练内存消耗在有效深度上保持恒定,且迭代次数可根据收敛性自适应选择。实验结果表明,吸引子模型(https://huggingface.co/papers?q=Attractor%20Models)在两种场景下均优于现有模型:大规模语言模型预训练和小型模型推理。在语言建模方面,吸引子模型(https://huggingface.co/papers?q=Attractor%20Models)在不同规模上实现了相对于标准Transformer和稳定循环模型的帕累托改进,困惑度最多降低46.6%,下游准确率最多提升19.7%,同时降低了训练成本。值得注意的是,一个770M参数的吸引子模型优于一个在双倍token上训练的1.3B参数Transformer。在具有挑战性的推理任务上,我们展示了仅含27M参数且训练样本约1000个的模型,在Sudoku-Extreme上达到91.4%的准确率,在Maze-Hard上达到93.1%,其扩展性表现在前沿模型(如Claude和GPT o3)完全失败、专用递归推理器在更大规模下崩溃的场景中依然出色。最后,我们证明吸引子模型(https://huggingface.co/papers?q=Attractor%20Models)展现出一种新现象,我们称之为平衡内化(equilibrium internalization):不动点训练将模型的初始输出嵌入置于接近平衡态,从而在推理时可移除求解器而仅造成轻微性能下降。综合来看,这些结果表明吸引子模型(https://huggingface.co/papers?q=Attractor%20Models)通过将循环转化为模型可以学习内化的计算,使得迭代精炼具备可扩展性。

查看arXiv页面(https://arxiv.org/abs/2605.12466)查看PDF(https://arxiv.org/pdf/2605.12466)项目页面(https://attractor-models.github.io/)GitHub1(https://github.com/jacobfa/Attractor)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.12466)

在你的Agent中获取此论文:

hf papers read 2605.12466

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.12466即可从此页面链接。

引用此论文的数据集0

暂无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.12466即可从此页面链接。

引用此论文的Spaces0

暂无Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.12466即可从此页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

学习如何让大语言模型进行推理

OpenAI Blog

OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。

BALAR:一种用于主动推理的贝叶斯智能体循环

arXiv cs.AI

本文介绍了 BALAR,这是一种无需训练的贝叶斯智能体循环算法,使大型语言模型能够在多轮交互中进行主动推理并提出澄清性问题。该算法在侦探、谜题和临床诊断基准测试中显示出比基线方法显著的性能提升。

大型语言模型中的推理源于受限推理流形

arXiv cs.LG

本文将大语言模型中的推理视为一种内在的动力学过程,发现推理时的表征会自组织成低维流形。文章提出了一种基于内部动力学的无标签诊断方法,以评估推理质量,表明有效的推理受到几何和信息约束的支配。