@huskydogewoof: **我的看法和思考如下**(抱歉说得有点啰嗦,但我希望你会喜欢…
摘要
作者分享了对如何将收敛性作为迭代权值绑定模型可靠停止信号的思考,讨论了DEQ、Huggin、Ouro和EqR等论文中的技巧,并强调了预归一化和输入注入的作用。
查看缓存全文
缓存时间: 2026/06/18 06:10
我的看法和思考如下(抱歉写得有些冗长,但如果你对权重共享/迭代/循环模型感兴趣,希望你会喜欢这条线索):
1/ 这项研究表明,除了 EqR 添加随机性的方法外,其他技巧也能让收敛成为迭代权重共享模型的可靠停止信号,这表明不动点与解之间具有良好的对齐。
实际上,在 EqR 项目的早期阶段,我本打算走这条路——这更符合深度均衡模型(DEQ)的精神:在训练和推理过程中,用基于收敛的停止机制替代独立的 ACT 头。
然而,我的初步结果并未显示出积极信号,所以我最终放弃了那个方向。现在,看到这篇论文中使用的技巧:
a. 前置归一化而非后置归一化, b. 残差缩放与阻尼以稳定循环动态, c. 跨迭代的输入混合/条件保持,
看来,虽然有些复杂,但用收敛作为停止机制并非不可能,只是需要很多技巧来改进压缩性和收敛性。
在这些技巧中,我最喜欢关于前置归一化和后置归一化的讨论。
正如 Huggin 和 DEQ 所指出的,输入注入对权重共享模型很重要 [*]。然而,字节跳动的 Ouro 并没有显式进行输入注入,却依然工作得相当不错。
为什么?我的解读很简单:它采用了一种类似前置归一化的设计(不是标准的前置归一化,而是一种残差可以更直接地在层间传递的设计),这已经有助于保留来自输入的条件信号。
人们使用后置归一化来对抗已知的权重共享模型在循环中的不稳定性,但这可能不是最佳选择。
==============================
DEQ: https://arxiv.org/abs/1909.01377 Huggin: https://arxiv.org/abs/2502.05171 Ouro: https://ouro-llm.github.io EqR: https://arxiv.org/abs/2605.21488
[*为什么输入注入很重要?] 不动点对应于迭代权重共享模型的无限深度极限。要使这样的不动点有用,来自输入的条件信号必须在整个无限迭代过程中得到保留;否则,动态可能会收敛到一个与输入无关的吸引子。
更多内容如下
Deep Equilibrium Models
来源:https://arxiv.org/abs/1909.01377 查看 PDF (https://arxiv.org/pdf/1909.01377)
摘要:我们提出了一种建模序列数据的新方法:深度均衡模型(DEQ)。受现有许多深度序列模型的隐藏层会趋向某个不动点的观察启发,我们提出了 DEQ 方法,直接通过求根找到这些均衡点。这种方法等价于运行一个无限深度(权重共享)的前馈网络,但有一个显著的优点:我们可以使用隐式微分,通过均衡点进行解析反向传播。使用这种方法,无论网络的有效“深度”如何,训练和预测都只需要恒定的内存。我们展示了 DEQ 如何应用于两种最先进的深度序列模型:自注意力变换器和网格网络。在大型语言建模任务(如 WikiText-103 基准)上,我们表明 DEQ 1) 通常在相似参数数量下优于这些最先进模型;2) 计算需求与现有模型相当;3) 大幅减少内存消耗(这通常是大型序列模型训练的瓶颈),在我们的实验中实现了高达 88% 的内存减少。代码可在以下网址获取:this https URL (https://github.com/locuslab/deq)。
提交历史
来自:邵杰·白 [查看邮箱 (https://arxiv.org/show-email/8ac06e46/1909.01377)] **[v1]**2019年9月3日 星期二 18:02:50 UTC (721 KB) **[v2]**2019年10月28日 星期一 22:25:01 UTC (720 KB)
Francesco Bertolotti (@f14bertolotti): 这种 TRM 变体使得 Transformer 块成为一种压缩映射,从而使循环成为一个不动点过程。他们利用这一点,通过 Neumann 级数(截断的 BPTT)近似梯度。非常酷的工作!
🔗
相似文章
@charles_irl: 我的直觉是,要解决由非确定性与非结合性引起的浮点数数值问题,我们需要跳出确定性思维框架。
这条推文讨论了通过引入“实现噪声”来训练模型,以提高模型对由非确定性和非结合性引起的浮点数数值问题的鲁棒性。
@hooeem: https://x.com/hooeem/status/2062266452921491934
一份指南,解释如何通过将固定流程编译成更小的微调模型,而不是反复提示前沿模型,从而使代理工作流成本降低高达462倍。
@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587
作者分享了从头训练一个160M参数大语言模型的经验,尝试了多种架构,如多Token预测和分层推理模型。他强调快速迭代、简化思路以及理解架构有效原因的重要性。
@jobergum:你们认识我是 BM25 guy,但 embeddings 也很酷。@HornetDev 团队刚刚发布了新文章,在 1 亿规模下做 ANN 调优……
HornetDev 团队发布文章,介绍在 1 亿级别数据下调优近似最近邻搜索,涵盖 embedding 偏差、图连通性与量化上限。
@jaminball: 我很喜欢参加专注于研究的会议,这周的@CAISconf非常棒!了解前沿进展令人着迷……
Percy Liang 讨论了如何使用适度的算力训练开放前沿模型,强调算法效率和缩放配方,并主张超越开放权重的开放开发。