Equilibrium Reasoners: 学习吸引子实现可扩展推理
摘要
Equilibrium Reasoners (EqR) 提出了一种新颖的可扩展推理框架,通过在潜在动态系统中学习任务条件吸引子,展开多达 40,000 层,在 Sudoku-Extreme 上实现了超过 99% 的准确率。
查看缓存全文
缓存时间: 2026/05/25 18:39
Paper page - Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning
来源:https://huggingface.co/papers/2605.21488
摘要
Equilibrium Reasoners 通过任务条件吸引子(task-conditioned attractors)引导潜在动力学系统(latent dynamical systems)朝向有效解,从而实现可扩展推理,在迭代测试时计算中取得了显著的准确率提升。
通过迭代更新潜在状态来扩展测试时计算,已成为一种强大的推理范式。然而,使这些迭代模型(https://huggingface.co/papers?q=iterative%20models)能够泛化到已记忆模式之外的内在机制仍不清楚。我们假设,可泛化的推理源于学习任务条件吸引子(https://huggingface.co/papers?q=task-conditioned%20attractors):潜在动力学系统(https://huggingface.co/papers?q=latent%20dynamical%20systems)中稳定不动点对应于有效解的过程。我们将此过程形式化为 Equilibrium Reasoners(https://huggingface.co/papers?q=Equilibrium%20Reasoners)(EqR),它无需外部验证器或任务特定先验即可实现测试时扩展(https://huggingface.co/papers?q=test-time%20scaling)。EqR 沿两个轴扩展内部动力学:深度上,通过运行更多次迭代;广度上,通过聚合多次初始化的随机轨迹(https://huggingface.co/papers?q=stochastic%20trajectories)。实验上,测试时扩展(https://huggingface.co/papers?q=test-time%20scaling)带来的收益与朝向解对齐吸引子(https://huggingface.co/papers?q=attractors)的更强收敛(https://huggingface.co/papers?q=convergence)紧密相关。这种吸引子视角允许神经网络根据任务难度自适应地分配测试时计算。简单情况只需 1 到 5 步迭代即可收敛,而困难情况则受益于大规模测试时扩展(https://huggingface.co/papers?q=test-time%20scaling)。通过展开多达等效 40,000 层的深度,可扩展的潜在推理将 Sudoku-Extreme(https://huggingface.co/papers?q=Sudoku-Extreme)上的准确率从前馈模型的 2.6% 提升至超过 99%。这些结果表明,学习到的吸引子景观为理解迭代潜在模型中的可扩展推理提供了一个有用的机制视角。
查看 arXiv 页面(https://arxiv.org/abs/2605.21488)
查看 PDF(https://arxiv.org/pdf/2605.21488)
项目页面(https://x.com/huskydogewoof/status/2057641657580064941?s=20)
GitHub(https://github.com/locuslab/eqr)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.21488)
在你的智能体中获取这篇论文:
hf papers read 2605.21488
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型 0
没有模型链接本论文
在模型 README.md 中引用 arxiv.org/abs/2605.21488 以从此页面链接到它。
引用本论文的数据集 0
没有数据集链接本论文
在数据集 README.md 中引用 arxiv.org/abs/2605.21488 以从此页面链接到它。
引用本论文的 Space 0
没有 Space 链接本论文
在 Space README.md 中引用 arxiv.org/abs/2605.21488 以从此页面链接到它。
包含本论文的收藏 0
没有收藏包含本论文
将本论文添加到一个收藏(https://huggingface.co/new-collection)中以从此页面链接到它。
相似文章
解决循环:用于语言和推理的吸引子模型
本文介绍了吸引子模型,该模型利用定点求解和隐式微分进行高效的迭代优化,在降低计算成本的同时,实现了相较于传统Transformer更优的语言建模和推理性能。
Stratagem:通过轨迹调制博弈自博弈学习可迁移推理
# 论文页面 - Stratagem:通过轨迹调制博弈自博弈学习可迁移推理 来源:[https://huggingface.co/papers/2604.17696](https://huggingface.co/papers/2604.17696) 作者:,,,,,,,,,, ## 摘要 STRATAGEM 通过引入推理可迁移性系数与演化奖励,鼓励抽象、跨领域模式而非博弈专用启发式,从而解决语言模型推理迁移受限的问题。博弈为开发通用推理能力提供了极具吸引力的范式。
强化学习能否教会大型语言模型进行长程推理?表达力是关键
本文介绍了 ScaleLogic 框架,该框架证明了强化学习的训练计算资源消耗遵循与大型语言模型推理深度相关的幂律分布。文章强调,逻辑表达力对于提升下游迁移能力和训练效率至关重要。
LC-ERD:通过一致性规约的奖励分解挖掘潜在逻辑实现自我进化推理
LC-ERD是一个框架,从LLM生成的推理链中挖掘潜在逻辑,将全局奖励分解为步骤级信号,实现无需人工标注的自我进化推理。它通过变分逻辑势和多智能体值分解来解决标签噪声、粗粒度监督和分布崩溃问题。
@askalphaxiv: 由Yoshua Bengio指导的一篇精彩论文 "Generative Recursive Reasoning" 测试时计算不仅应…
论文《Generative Recursive Reasoning》提出了一种方法,通过并行采样多个潜在推理轨迹来扩展测试时计算,使模型能够探索多样化的假设并避免确定性坍缩。该方法在数独、ARC AGI、N皇后和图形着色等任务上提升了性能,还可以从头生成有效的数独棋盘和MNIST数字。