@huskydogewoof: 我的看法和思考如下（抱歉说得有点啰嗦，但我希望你会喜欢…

X AI KOLs Timeline 2026/06/17 19:37 新闻

weight-tied-models iterative-models deep-equilibrium-models convergence pre-norm post-norm input-injection

摘要

作者分享了对如何将收敛性作为迭代权值绑定模型可靠停止信号的思考，讨论了DEQ、Huggin、Ouro和EqR等论文中的技巧，并强调了预归一化和输入注入的作用。

**我的看法和思考如下**（抱歉说得有点啰嗦，但我希望如果你对权值绑定/迭代/循环模型感兴趣，你会喜欢这个讨论）： **1/ 这项工作表明，除了 EqR 添加随机性的方法外，其他技巧也可以使收敛成为迭代权值绑定模型的可靠停止信号，表明不动点与解决方案之间的良好对齐。** 实际上，在 EqR 项目的早期阶段，我本打算走这条路——这在精神上与深度平衡模型（DEQ）更加一致：用基于收敛的停止替代单独的 ACT 头，无论是在训练还是推理中。然而，我的初步结果没有显示出积极信号，所以我最终放弃了那个方向。现在，看了本文使用的技巧后： a. 使用预归一化而不是后归一化， b. 使用残差缩放和阻尼来稳定循环动态， c. 跨迭代保持输入混合/条件注入，看起来，虽然有点复杂，但用收敛来停止并非不可能。只是需要很多技巧来改善压缩性和收敛性。 *在这些技巧中，我最喜欢关于预归一化和后归一化的讨论。* 正如 Huggin 和 DEQ 所指出的，输入注入对权值绑定模型很重要[*]。然而，字节跳动的 Ouro 并没有显式地进行输入注入，但它的表现仍然不错。为什么？我的解释很简单：它使用了类似预归一化的设计（不是标准的预归一化，而是一种残差可以更直接地在层间传递的设计），这已经有助于保留来自输入的条件信号。人们使用后归一化来对抗已知的权值绑定模型在循环中的不稳定性，但这可能不是最佳选择。 ============================== DEQ: https://arxiv.org/abs/1909.01377) Huggin: https://arxiv.org/abs/2502.05171 Ouro: https://ouro-llm.github.io EqR: https://arxiv.org/abs/2605.21488 [*为什么输入注入很重要？] 不动点对应于迭代权值绑定模型无限深度极限。要使这样的不动点有用，输入的条件信号必须在整个无限迭代过程中得以保留；否则，动态可能会收敛到与输入无关的吸引子。更多内容如下

查看原文

查看缓存全文

缓存时间: 2026/06/18 06:10

我的看法和思考如下（抱歉写得有些冗长，但如果你对权重共享/迭代/循环模型感兴趣，希望你会喜欢这条线索）：

1/ 这项研究表明，除了 EqR 添加随机性的方法外，其他技巧也能让收敛成为迭代权重共享模型的可靠停止信号，这表明不动点与解之间具有良好的对齐。

实际上，在 EqR 项目的早期阶段，我本打算走这条路——这更符合深度均衡模型（DEQ）的精神：在训练和推理过程中，用基于收敛的停止机制替代独立的 ACT 头。

然而，我的初步结果并未显示出积极信号，所以我最终放弃了那个方向。现在，看到这篇论文中使用的技巧：

a. 前置归一化而非后置归一化， b. 残差缩放与阻尼以稳定循环动态， c. 跨迭代的输入混合/条件保持，

看来，虽然有些复杂，但用收敛作为停止机制并非不可能，只是需要很多技巧来改进压缩性和收敛性。

在这些技巧中，我最喜欢关于前置归一化和后置归一化的讨论。

正如 Huggin 和 DEQ 所指出的，输入注入对权重共享模型很重要 [*]。然而，字节跳动的 Ouro 并没有显式进行输入注入，却依然工作得相当不错。

为什么？我的解读很简单：它采用了一种类似前置归一化的设计（不是标准的前置归一化，而是一种残差可以更直接地在层间传递的设计），这已经有助于保留来自输入的条件信号。

人们使用后置归一化来对抗已知的权重共享模型在循环中的不稳定性，但这可能不是最佳选择。

==============================

DEQ: https://arxiv.org/abs/1909.01377 Huggin: https://arxiv.org/abs/2502.05171 Ouro: https://ouro-llm.github.io EqR: https://arxiv.org/abs/2605.21488

[*为什么输入注入很重要？] 不动点对应于迭代权重共享模型的无限深度极限。要使这样的不动点有用，来自输入的条件信号必须在整个无限迭代过程中得到保留；否则，动态可能会收敛到一个与输入无关的吸引子。

更多内容如下

Deep Equilibrium Models

来源：https://arxiv.org/abs/1909.01377 查看 PDF (https://arxiv.org/pdf/1909.01377)

摘要：我们提出了一种建模序列数据的新方法：深度均衡模型（DEQ）。受现有许多深度序列模型的隐藏层会趋向某个不动点的观察启发，我们提出了 DEQ 方法，直接通过求根找到这些均衡点。这种方法等价于运行一个无限深度（权重共享）的前馈网络，但有一个显著的优点：我们可以使用隐式微分，通过均衡点进行解析反向传播。使用这种方法，无论网络的有效“深度”如何，训练和预测都只需要恒定的内存。我们展示了 DEQ 如何应用于两种最先进的深度序列模型：自注意力变换器和网格网络。在大型语言建模任务（如 WikiText-103 基准）上，我们表明 DEQ 1) 通常在相似参数数量下优于这些最先进模型；2) 计算需求与现有模型相当；3) 大幅减少内存消耗（这通常是大型序列模型训练的瓶颈），在我们的实验中实现了高达 88% 的内存减少。代码可在以下网址获取：this https URL (https://github.com/locuslab/deq)。

提交历史

来自：邵杰·白 [查看邮箱 (https://arxiv.org/show-email/8ac06e46/1909.01377)] **[v1]**2019年9月3日星期二 18:02:50 UTC (721 KB) **[v2]**2019年10月28日星期一 22:25:01 UTC (720 KB)

Francesco Bertolotti (@f14bertolotti): 这种 TRM 变体使得 Transformer 块成为一种压缩映射，从而使循环成为一个不动点过程。他们利用这一点，通过 Neumann 级数（截断的 BPTT）近似梯度。非常酷的工作！

🔗

@huskydogewoof: 我的看法和思考如下（抱歉说得有点啰嗦，但我希望你会喜欢…

Deep Equilibrium Models

提交历史

相似文章

@charles_irl: 我的直觉是，要解决由非确定性与非结合性引起的浮点数数值问题，我们需要跳出确定性思维框架。

@hooeem: https://x.com/hooeem/status/2062266452921491934

@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587

@jobergum：你们认识我是 BM25 guy，但 embeddings 也很酷。@HornetDev 团队刚刚发布了新文章，在 1 亿规模下做 ANN 调优……

@jaminball: 我很喜欢参加专注于研究的会议，这周的@CAISconf非常棒！了解前沿进展令人着迷……

提交意见反馈