looped-transformers

标签

Cards List
#looped-transformers

关于循环变换器中残差缩放:稳定性与可迁移性

arXiv cs.LG · 2026-06-18 缓存

本文分析了循环(权重共享)变换器中的残差缩放问题,表明权重共享需要比标准残差网络更强的缩放(1/N),并推导出一种因式参数化方法,使得超参数可以在不同循环次数之间迁移,无需重新调参。

0 人收藏 0 人点赞
#looped-transformers

@askalphaxiv: 另一项关于循环Transformer的酷研究。他们提出一个问题:“我们能否直接在推理时循环一个冻结的、现成的检查点…

X AI KOLs Timeline · 2026-05-26 缓存

本研究介绍了一种技术,通过使用阻尼Runge-Kutta子步骤,在推理时循环冻结的、现成的Transformer检查点,将Transformer层视为残差ODE中的欧拉步骤。这无需微调、架构更改或新权重即可增加额外的潜在计算,在MMLU-Pro、GPQA和ARC等知识任务上显示出收益。

0 人收藏 0 人点赞
#looped-transformers

@DimitrisPapail:Looped Transformers 的共同发明者昨日通过了她的博士论文答辩,即将开启一段精彩的新旅程……

X AI KOLs Timeline · 2026-05-08 缓存

Looped Transformers 的共同发明者 Angeliki Giannou 已成功通过博士论文答辩,并即将开始新的职位。Dimitris Papailiopoulos 在社交媒体上送上了祝贺。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈