LoopCTR:释放循环扩展威力,刷新点击率预测
摘要
LoopCTR 将“循环扩展”引入推荐模型,通过基于 MoE 的专家融合与超连接残差,在提升 CTR 预测效果的同时实现 train-deep/infer-shallow 部署,满足低延迟在线服务需求。
查看缓存全文
缓存时间: 2026/04/22 06:17
论文页面 - LoopCTR:释放循环缩放力量的点击率预测
来源:https://huggingface.co/papers/2604.19550
🔥 最近,OpenMythos 凭借其 Recurrent-Depth Transformer 在 AI 圈掀起波澜,证明模型扩展不必只靠堆叠更多层或增加参数量;用共享参数的递归计算同样能有效提升推理能力。
有趣的是,我们在推荐系统领域刚刚完成了一项新研究:LoopCTR。据我们所知,这是第一篇系统探究推荐模型“循环缩放 🔁”的工作。
然而,推荐场景里的循环不能简单地“把同一层反复用” ♻️。粗暴共享参数会导致表达力受限,而固定的计算流也难以适应不同样本、不同循环深度。
为此,我们在 Loop Block 中引入两大关键设计:
🧩 基于 MoE 的专家混合:扩展共享层的表达能力,让单层承载更丰富的参数容量。
🕸️ 超连接残差结构:实现输入感知的动态计算分配,打破固定残差信息流的限制。
在此基础上,LoopCTR 引入中间监督 🔍,在隐式强化自蒸馏的同时显著降低在线推理延迟。
🚀 训练深、推理浅:模型可用多循环训练,但部署时减少甚至零循环推理,极适合工业推荐系统严苛的延迟约束。
🔭 训练浅、推理深:反直觉的是,Oracle 分析显示,用浅循环训练的模型在更深推理设置下反而可能触碰更高性能天花板。
这也暗示不同样本可能需要不同计算深度。自适应隐式循环推理仍是极具前景的方向,只是我们尝试多种策略后尚未找到完全有效的方案 😢。
实验结果十分亮眼 💥。即使在零循环推理设置下,LoopCTR 也稳定超越基线模型,在极低的在线 serving 开销下取得显著性能提升 ⚡,工业落地价值极高 🏭。
简言之,LoopCTR 突破了推荐系统“加参数就完事”的传统缩放范式,开辟了循环缩放的新维度,利用共享参数架构与更优归纳偏置实现更深、更灵活的隐式推理。
我们的 Oracle 实验进一步表明,现有方法仍有巨大潜力待挖。如何实现自适应且高效的潜在推理,全面解锁循环缩放的上限,仍是值得探索的开放问题 🤔。
相似文章
LoopUS:将预训练大语言模型重塑为循环隐层精炼模型
LoopUS 是一种后训练框架,通过隐层精炼和自适应早退机制,将预训练大语言模型转换为循环架构,从而提升推理性能。它解决了现有循环计算方法中存在的计算成本高和原有能力受损的问题。
@RitOnchain: https://x.com/RitOnchain/status/2067562267936534965
关于将循环工程应用于量化研究的全面指南,提出了一个框架,其中LLM代理迭代地感知、推理、行动和观察,以生成和测试alpha因子,并附有完整的代码实现以及与单次提示的比较。
扩展更多,收缩更少:为推荐系统中密集扩展塑造有效秩动态
本文提出RankElastor,一种新颖的架构,通过引入参数化全混合和GLU改进的P-FFN,缓解推荐模型密集扩展中的嵌入坍塌,实现鲁棒扩展并在大规模数据集上提升性能。
Looped World Models
Looped World Models 通过共享的Transformer块引入迭代潜在状态细化,实现了100倍的参数效率,同时根据预测复杂度自适应调整计算深度。
@DorothyDDU: LoopCoder-v2 已发布 Loop Transformers 重复使用同一个块进行循环隐藏状态优化——让模型“思考”更多……
本文介绍了LoopCoder-v2,一个70亿参数的并行循环变换器系列,用于代码生成,并研究了最优循环次数,发现两个循环能带来显著提升,而更多循环则会导致性能下降。