解决循环:用于语言和推理的吸引子模型
摘要
本文介绍了吸引子模型,该模型利用定点求解和隐式微分进行高效的迭代优化,在降低计算成本的同时,实现了相较于传统Transformer更优的语言建模和推理性能。
查看缓存全文
缓存时间: 2026/05/13 20:14
论文页面 - 求解循环:面向语言与推理的吸引子模型
来源:https://huggingface.co/papers/2605.12466
摘要
吸引子模型通过隐式微分求解不动点实现高效迭代精炼,在语言建模与推理任务上取得优越性能,同时相比传统Transformer显著降低计算成本。
循环Transformer(https://huggingface.co/papers?q=Looped%20Transformers)为纯前馈计算(https://huggingface.co/papers?q=feed-forward%20computation)提供了一种有前景的替代方案,通过迭代精炼潜在表示(https://huggingface.co/papers?q=latent%20representations)来提升语言建模与推理能力。然而,循环架构(https://huggingface.co/papers?q=recurrent%20architectures)在训练上仍不稳定,优化与部署成本高昂,并且受限于固定的小规模循环深度。我们引入了吸引子模型(https://huggingface.co/papers?q=Attractor%20Models),其中主干模块(https://huggingface.co/papers?q=backbone%20module)首先提出输出嵌入,然后吸引子模块(https://huggingface.co/papers?q=attractor%20module)通过求解不动点(https://huggingface.co/papers?q=fixed%20point)来精炼这些嵌入,梯度通过隐式微分(https://huggingface.co/papers?q=implicit%20differentiation)获得。因此,训练内存消耗在有效深度上保持恒定,且迭代次数可根据收敛性自适应选择。实验结果表明,吸引子模型(https://huggingface.co/papers?q=Attractor%20Models)在两种场景下均优于现有模型:大规模语言模型预训练和小型模型推理。在语言建模方面,吸引子模型(https://huggingface.co/papers?q=Attractor%20Models)在不同规模上实现了相对于标准Transformer和稳定循环模型的帕累托改进,困惑度最多降低46.6%,下游准确率最多提升19.7%,同时降低了训练成本。值得注意的是,一个770M参数的吸引子模型优于一个在双倍token上训练的1.3B参数Transformer。在具有挑战性的推理任务上,我们展示了仅含27M参数且训练样本约1000个的模型,在Sudoku-Extreme上达到91.4%的准确率,在Maze-Hard上达到93.1%,其扩展性表现在前沿模型(如Claude和GPT o3)完全失败、专用递归推理器在更大规模下崩溃的场景中依然出色。最后,我们证明吸引子模型(https://huggingface.co/papers?q=Attractor%20Models)展现出一种新现象,我们称之为平衡内化(equilibrium internalization):不动点训练将模型的初始输出嵌入置于接近平衡态,从而在推理时可移除求解器而仅造成轻微性能下降。综合来看,这些结果表明吸引子模型(https://huggingface.co/papers?q=Attractor%20Models)通过将循环转化为模型可以学习内化的计算,使得迭代精炼具备可扩展性。
查看arXiv页面(https://arxiv.org/abs/2605.12466)查看PDF(https://arxiv.org/pdf/2605.12466)项目页面(https://attractor-models.github.io/)GitHub1(https://github.com/jacobfa/Attractor)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.12466)
在你的Agent中获取此论文:
hf papers read 2605.12466
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
暂无模型链接此论文
在模型README.md中引用arxiv.org/abs/2605.12466即可从此页面链接。
引用此论文的数据集0
暂无数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2605.12466即可从此页面链接。
引用此论文的Spaces0
暂无Space链接此论文
在Space README.md中引用arxiv.org/abs/2605.12466即可从此页面链接。
包含此论文的收藏集0
暂无收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
内存高效型循环Transformer:循环语言模型中的计算与内存解耦
提出内存高效型循环Transformer(MELT),这是一种新型循环大语言模型架构,通过跨循环共享单一KV缓存,并结合插值过渡与注意力对齐蒸馏的分块训练方法,实现了推理深度与内存消耗的解耦。
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
BALAR:一种用于主动推理的贝叶斯智能体循环
本文介绍了 BALAR,这是一种无需训练的贝叶斯智能体循环算法,使大型语言模型能够在多轮交互中进行主动推理并提出澄清性问题。该算法在侦探、谜题和临床诊断基准测试中显示出比基线方法显著的性能提升。
大型语言模型中的推理源于受限推理流形
本文将大语言模型中的推理视为一种内在的动力学过程,发现推理时的表征会自组织成低维流形。文章提出了一种基于内部动力学的无标签诊断方法,以评估推理质量,表明有效的推理受到几何和信息约束的支配。