@askalphaxiv: 另一项关于循环Transformer的酷研究。他们提出一个问题：“我们能否直接在推理时循环一个冻结的、现成的检查点…

X AI KOLs Timeline 2026/05/26 23:38 论文

摘要

本研究介绍了一种技术，通过使用阻尼Runge-Kutta子步骤，在推理时循环冻结的、现成的Transformer检查点，将Transformer层视为残差ODE中的欧拉步骤。这无需微调、架构更改或新权重即可增加额外的潜在计算，在MMLU-Pro、GPQA和ARC等知识任务上显示出收益。

另一项关于循环Transformer的酷研究他们提出一个问题：“我们能否直接在推理时循环一个冻结的、现成的检查点而无需任何修改？” 所以，简单的重复会将隐藏状态推离后期层期望的分布，导致性能下降。但如果你将Transformer层视为残差ODE中的欧拉步骤，并用阻尼Runge-Kutta子步骤替换简单循环，这是可行的。这使得冻结模型在测试时获得额外的潜在计算，无需微调、新权重或架构更改。最大的收益出现在像MMLU-Pro、GPQA和ARC这样的困难知识多选题任务上。

查看原文

查看缓存全文

缓存时间: 2026/05/27 03:18

关于循环Transformer的另一项酷研究

他们提出了一个问题：“我们能否直接在推理时循环一个冻结的、现成的检查点而不做任何修改？”

因此，简单的重复会将隐藏状态推到后续层预期的分布之外，从而导致性能下降。

但如果你将 Transformer 层视为残差常微分方程中的欧拉步，并用阻尼龙格-库塔子步替代简单的循环，这是可能的。

这使得冻结模型在测试时获得额外的隐式计算，无需微调、无需新权重、无需架构变化。

最好的效果出现在像 MMLU-Pro、GPQA 和 ARC 这样的高难度知识多项选择题任务上。

@askalphaxiv: 另一项关于循环Transformer的酷研究。他们提出一个问题：“我们能否直接在推理时循环一个冻结的、现成的检查点…

相似文章

全循环Transformer：简单稳定循环

内存高效型循环Transformer：循环语言模型中的计算与内存解耦

LoopQ：递归Transformer的量化

LoopUS：将预训练大语言模型重塑为循环隐层精炼模型

@gordic_aleksa: 新深度博文时刻：Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨，我…

提交意见反馈