解决循环：用于语言和推理的吸引子模型

Hugging Face Daily Papers 2026/05/12 00:00 论文

摘要

本文介绍了吸引子模型，该模型利用定点求解和隐式微分进行高效的迭代优化，在降低计算成本的同时，实现了相较于传统Transformer更优的语言建模和推理性能。

循环Transformer通过迭代优化潜在表示，为纯前馈计算提供了一种有前途的替代方案，从而改善了语言建模和推理。然而，循环架构训练不稳定，优化和部署成本高昂，并且受限于较小的固定循环深度。我们引入了吸引子模型，其中主干模块首先提出输出嵌入，然后吸引子模块通过求解定点来优化它们，并通过隐式微分获得梯度。因此，训练内存随有效深度保持恒定，迭代次数由收敛自适应选择。实验上，吸引子模型在两个领域均优于现有模型：大规模语言模型预训练和小模型推理。在语言建模中，吸引子模型在不同规模上相比标准Transformer和稳定的循环模型实现了帕累托改进，困惑度最多降低46.6%，下游准确率最多提高19.7%，同时降低训练成本。值得注意的是，一个7.7亿参数的吸引子模型优于一个基于两倍于其训练数据量进行训练的13亿参数的Transformer。在具有挑战性的推理任务上，我们展示了仅2700万参数和约1000个示例的模型在Sudoku-Extreme上达到91.4%的准确率，在Maze-Hard上达到93.1%的准确率，其扩展性能良好，而像Claude和GPT o3这样的前沿模型完全失败，专门的递归推理器则在更大规模下崩溃。最后，我们展示了吸引子模型表现出一种新颖现象，我们称之为均衡内化：定点训练将模型的初始输出嵌入置于均衡附近，使得推理时可以移除求解器，而性能下降很小。这些结果共同表明，吸引子模型通过将循环转化为模型可以学习内化的计算，使迭代优化变得可扩展。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 20:14

论文页面 - 求解循环：面向语言与推理的吸引子模型

来源：https://huggingface.co/papers/2605.12466

摘要

吸引子模型通过隐式微分求解不动点实现高效迭代精炼，在语言建模与推理任务上取得优越性能，同时相比传统Transformer显著降低计算成本。

循环Transformer（https://huggingface.co/papers?q=Looped%20Transformers）为纯前馈计算（https://huggingface.co/papers?q=feed-forward%20computation）提供了一种有前景的替代方案，通过迭代精炼潜在表示（https://huggingface.co/papers?q=latent%20representations）来提升语言建模与推理能力。然而，循环架构（https://huggingface.co/papers?q=recurrent%20architectures）在训练上仍不稳定，优化与部署成本高昂，并且受限于固定的小规模循环深度。我们引入了吸引子模型（https://huggingface.co/papers?q=Attractor%20Models），其中主干模块（https://huggingface.co/papers?q=backbone%20module）首先提出输出嵌入，然后吸引子模块（https://huggingface.co/papers?q=attractor%20module）通过求解不动点（https://huggingface.co/papers?q=fixed%20point）来精炼这些嵌入，梯度通过隐式微分（https://huggingface.co/papers?q=implicit%20differentiation）获得。因此，训练内存消耗在有效深度上保持恒定，且迭代次数可根据收敛性自适应选择。实验结果表明，吸引子模型（https://huggingface.co/papers?q=Attractor%20Models）在两种场景下均优于现有模型：大规模语言模型预训练和小型模型推理。在语言建模方面，吸引子模型（https://huggingface.co/papers?q=Attractor%20Models）在不同规模上实现了相对于标准Transformer和稳定循环模型的帕累托改进，困惑度最多降低46.6%，下游准确率最多提升19.7%，同时降低了训练成本。值得注意的是，一个770M参数的吸引子模型优于一个在双倍token上训练的1.3B参数Transformer。在具有挑战性的推理任务上，我们展示了仅含27M参数且训练样本约1000个的模型，在Sudoku-Extreme上达到91.4%的准确率，在Maze-Hard上达到93.1%，其扩展性表现在前沿模型（如Claude和GPT o3）完全失败、专用递归推理器在更大规模下崩溃的场景中依然出色。最后，我们证明吸引子模型（https://huggingface.co/papers?q=Attractor%20Models）展现出一种新现象，我们称之为平衡内化（equilibrium internalization）：不动点训练将模型的初始输出嵌入置于接近平衡态，从而在推理时可移除求解器而仅造成轻微性能下降。综合来看，这些结果表明吸引子模型（https://huggingface.co/papers?q=Attractor%20Models）通过将循环转化为模型可以学习内化的计算，使得迭代精炼具备可扩展性。

查看arXiv页面（https://arxiv.org/abs/2605.12466）查看PDF（https://arxiv.org/pdf/2605.12466）项目页面（https://attractor-models.github.io/）GitHub1（https://github.com/jacobfa/Attractor）加入收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.12466）

在你的Agent中获取此论文：

hf papers read 2605.12466

没有最新CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.12466即可从此页面链接。

引用此论文的数据集0

暂无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.12466即可从此页面链接。

引用此论文的Spaces0

暂无Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.12466即可从此页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）即可从此页面链接。

解决循环：用于语言和推理的吸引子模型

论文页面 - 求解循环：面向语言与推理的吸引子模型

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

内存高效型循环Transformer：循环语言模型中的计算与内存解耦

揭示大语言模型中的数学推理：内部机制的方法学研究

学习如何让大语言模型进行推理

BALAR：一种用于主动推理的贝叶斯智能体循环

大型语言模型中的推理源于受限推理流形

提交意见反馈