LoopCTR:释放循环扩展威力,刷新点击率预测

Hugging Face Daily Papers 论文

摘要

LoopCTR 将“循环扩展”引入推荐模型,通过基于 MoE 的专家融合与超连接残差,在提升 CTR 预测效果的同时实现 train-deep/infer-shallow 部署,满足低延迟在线服务需求。

在 Transformer 点击率(CTR)模型中,简单堆叠参数以追求扩展会带来计算与存储开销激增,使扩展雄心与严苛的工业部署约束之间裂缝日益扩大。我们提出 LoopCTR,引入“循环扩展”范式:通过递归复用共享模型层,在训练阶段增加计算量,却与参数量解耦。LoopCTR 采用“三明治”架构,融合超连接残差与 Mixture-of-Experts,并在每个循环深度施加过程监督,将多循环收益编码进共享参数。由此实现“训练多循环、推理零循环”策略:单次前向、无需任何循环即可超越全部基线。在三个公开 benchmark 与一个工业数据集的实验均达到 SOTA。Oracle 分析进一步揭示 0.02–0.04 的 AUC 提升空间,且训练循环数越少的模型 oracle 上限越高,为自适应推理开辟了新前沿。
查看原文
查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - LoopCTR:释放循环缩放力量的点击率预测

来源:https://huggingface.co/papers/2604.19550
🔥 最近,OpenMythos 凭借其 Recurrent-Depth Transformer 在 AI 圈掀起波澜,证明模型扩展不必只靠堆叠更多层或增加参数量;用共享参数的递归计算同样能有效提升推理能力。

有趣的是,我们在推荐系统领域刚刚完成了一项新研究:LoopCTR。据我们所知,这是第一篇系统探究推荐模型“循环缩放 🔁”的工作。

然而,推荐场景里的循环不能简单地“把同一层反复用” ♻️。粗暴共享参数会导致表达力受限,而固定的计算流也难以适应不同样本、不同循环深度。

为此,我们在 Loop Block 中引入两大关键设计:

🧩 基于 MoE 的专家混合:扩展共享层的表达能力,让单层承载更丰富的参数容量。
🕸️ 超连接残差结构:实现输入感知的动态计算分配,打破固定残差信息流的限制。

在此基础上,LoopCTR 引入中间监督 🔍,在隐式强化自蒸馏的同时显著降低在线推理延迟。

🚀 训练深、推理浅:模型可用多循环训练,但部署时减少甚至零循环推理,极适合工业推荐系统严苛的延迟约束。
🔭 训练浅、推理深:反直觉的是,Oracle 分析显示,用浅循环训练的模型在更深推理设置下反而可能触碰更高性能天花板。

这也暗示不同样本可能需要不同计算深度。自适应隐式循环推理仍是极具前景的方向,只是我们尝试多种策略后尚未找到完全有效的方案 😢。

实验结果十分亮眼 💥。即使在零循环推理设置下,LoopCTR 也稳定超越基线模型,在极低的在线 serving 开销下取得显著性能提升 ⚡,工业落地价值极高 🏭。

简言之,LoopCTR 突破了推荐系统“加参数就完事”的传统缩放范式,开辟了循环缩放的新维度,利用共享参数架构与更优归纳偏置实现更深、更灵活的隐式推理。

我们的 Oracle 实验进一步表明,现有方法仍有巨大潜力待挖。如何实现自适应且高效的潜在推理,全面解锁循环缩放的上限,仍是值得探索的开放问题 🤔。

相似文章

LoopUS:将预训练大语言模型重塑为循环隐层精炼模型

Hugging Face Daily Papers

LoopUS 是一种后训练框架,通过隐层精炼和自适应早退机制,将预训练大语言模型转换为循环架构,从而提升推理性能。它解决了现有循环计算方法中存在的计算成本高和原有能力受损的问题。

@RitOnchain: https://x.com/RitOnchain/status/2067562267936534965

X AI KOLs Timeline

关于将循环工程应用于量化研究的全面指南,提出了一个框架,其中LLM代理迭代地感知、推理、行动和观察,以生成和测试alpha因子,并附有完整的代码实现以及与单次提示的比较。

Looped World Models

Hugging Face Daily Papers

Looped World Models 通过共享的Transformer块引入迭代潜在状态细化,实现了100倍的参数效率,同时根据预测复杂度自适应调整计算深度。