@askalphaxiv: 另一项关于循环Transformer的酷研究。他们提出一个问题:“我们能否直接在推理时循环一个冻结的、现成的检查点…

X AI KOLs Timeline 论文

摘要

本研究介绍了一种技术,通过使用阻尼Runge-Kutta子步骤,在推理时循环冻结的、现成的Transformer检查点,将Transformer层视为残差ODE中的欧拉步骤。这无需微调、架构更改或新权重即可增加额外的潜在计算,在MMLU-Pro、GPQA和ARC等知识任务上显示出收益。

另一项关于循环Transformer的酷研究 他们提出一个问题:“我们能否直接在推理时循环一个冻结的、现成的检查点而无需任何修改?” 所以,简单的重复会将隐藏状态推离后期层期望的分布,导致性能下降。 但如果你将Transformer层视为残差ODE中的欧拉步骤,并用阻尼Runge-Kutta子步骤替换简单循环,这是可行的。 这使得冻结模型在测试时获得额外的潜在计算,无需微调、新权重或架构更改。 最大的收益出现在像MMLU-Pro、GPQA和ARC这样的困难知识多选题任务上。
查看原文
查看缓存全文

缓存时间: 2026/05/27 03:18

关于循环Transformer的另一项酷研究

他们提出了一个问题:“我们能否直接在推理时循环一个冻结的、现成的检查点而不做任何修改?”

因此,简单的重复会将隐藏状态推到后续层预期的分布之外,从而导致性能下降。

但如果你将 Transformer 层视为残差常微分方程中的欧拉步,并用阻尼龙格-库塔子步替代简单的循环,这是可能的。

这使得冻结模型在测试时获得额外的隐式计算,无需微调、无需新权重、无需架构变化。

最好的效果出现在像 MMLU-Pro、GPQA 和 ARC 这样的高难度知识多项选择题任务上。

相似文章

全循环Transformer:简单稳定循环

arXiv cs.LG

本文识别出梯度振荡和残差爆炸是循环Transformer训练不稳定的原因,并提出了全循环Transformer,包含两个无需参数调整的修改(全循环架构和注意力注入),能够稳定训练至12次循环迭代,在下游任务性能上实现了高达13.2%的提升。

LoopQ:递归Transformer的量化

arXiv cs.LG

LoopQ是一种针对循环语言模型的后训练量化框架,解决了分布偏移、状态复用和误差累积问题。在4位权重和激活量化下,平均准确率提升68.8%。

LoopUS:将预训练大语言模型重塑为循环隐层精炼模型

Hugging Face Daily Papers

LoopUS 是一种后训练框架,通过隐层精炼和自适应早退机制,将预训练大语言模型转换为循环架构,从而提升推理性能。它解决了现有循环计算方法中存在的计算成本高和原有能力受损的问题。