@askalphaxiv: 另一项关于循环Transformer的酷研究。他们提出一个问题:“我们能否直接在推理时循环一个冻结的、现成的检查点…
摘要
本研究介绍了一种技术,通过使用阻尼Runge-Kutta子步骤,在推理时循环冻结的、现成的Transformer检查点,将Transformer层视为残差ODE中的欧拉步骤。这无需微调、架构更改或新权重即可增加额外的潜在计算,在MMLU-Pro、GPQA和ARC等知识任务上显示出收益。
查看缓存全文
缓存时间: 2026/05/27 03:18
关于循环Transformer的另一项酷研究
他们提出了一个问题:“我们能否直接在推理时循环一个冻结的、现成的检查点而不做任何修改?”
因此,简单的重复会将隐藏状态推到后续层预期的分布之外,从而导致性能下降。
但如果你将 Transformer 层视为残差常微分方程中的欧拉步,并用阻尼龙格-库塔子步替代简单的循环,这是可能的。
这使得冻结模型在测试时获得额外的隐式计算,无需微调、无需新权重、无需架构变化。
最好的效果出现在像 MMLU-Pro、GPQA 和 ARC 这样的高难度知识多项选择题任务上。
相似文章
全循环Transformer:简单稳定循环
本文识别出梯度振荡和残差爆炸是循环Transformer训练不稳定的原因,并提出了全循环Transformer,包含两个无需参数调整的修改(全循环架构和注意力注入),能够稳定训练至12次循环迭代,在下游任务性能上实现了高达13.2%的提升。
内存高效型循环Transformer:循环语言模型中的计算与内存解耦
提出内存高效型循环Transformer(MELT),这是一种新型循环大语言模型架构,通过跨循环共享单一KV缓存,并结合插值过渡与注意力对齐蒸馏的分块训练方法,实现了推理深度与内存消耗的解耦。
LoopQ:递归Transformer的量化
LoopQ是一种针对循环语言模型的后训练量化框架,解决了分布偏移、状态复用和误差累积问题。在4位权重和激活量化下,平均准确率提升68.8%。
LoopUS:将预训练大语言模型重塑为循环隐层精炼模型
LoopUS 是一种后训练框架,通过隐层精炼和自适应早退机制,将预训练大语言模型转换为循环架构,从而提升推理性能。它解决了现有循环计算方法中存在的计算成本高和原有能力受损的问题。
@gordic_aleksa: 新深度博文时刻:Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨,我…
一篇深入探讨现代密集Transformer内部工作原理的博文,涵盖YaRN(位置信息)、混合注意力(实现160k上下文长度)、soft capping、QK归一化,以及Transformer数学(包括FLOPs/Token公式和集群规模估算)。