水平扩展LLM：无需权重修改的隐藏状态耦合 [R]

Reddit r/MachineLearning 2026/05/18 13:08 论文

llm scaling horizontal-scaling residual-coupling multi-model frozen-models bridge-projections

摘要

残差耦合（RC）使用轻量级学习线性桥接器并行连接冻结的语言模型，实现无需权重修改的水平扩展。与MoE相比，它最多可将困惑度降低80.7%，并在TruthfulQA上提升9.1个百分点的准确率。

残差耦合（RC）使用小型、可学习的线性桥接投影并行连接冻结的语言模型。这些桥接器从一个模型读取隐藏状态，并在中间层向另一个模型的残差流注入加法更新。在双向设置中，同时返回的桥接器形成一个反馈循环，稳定两个流而不改变基础权重。该架构建立了一个两步范式，其中基础模型充当记忆器，而轻量级线性桥接器处理跨领域泛化。将桥接器限制为纯线性映射可防止过拟合，因为它们只能映射冻结表示空间之间的现有几何关系。由于桥接器是针对真实目标数据进行优化的，它们没有动机去映射无根据的特征，例如单个模型的幻觉。保持基础权重完全冻结可以消除灾难性遗忘。系统保持操作封闭性，通过其现有结构转换输入，而不是改变自身以适应输入。在相同的冻结模型上评估双向RC与混合专家（MoE）路由，结果显示： * 医疗（3模型）：将困惑度降至11.02，而MoE为56.80，冻结基线为57.08。这代表了80.7%的降低。 * TruthfulQA健康（MC1）：准确率较基线提升9.1个百分点。独立模型的幻觉不相关，使得桥接门控能够放大一致性的跨模型更新，同时抑制个体错误。 * 编码测试：CodeGPT-small-py和GPT-2使用不同的分词器，导致不匹配文本上的基线困惑度为700万。MoE达到878，但RC通过读取输出投影崩溃前的隐藏状态实现了5.91。该框架为多模型系统引入了水平扩展轴，超越了通过更大的单体模型进行垂直扩展的方式。延迟仍受限于最慢的单个模型。可以添加或移除专家模型而无需重新训练剩余系统。在某些场景中，该架构可以用单次并行前向传递取代代理工作流中的多轮文本提示，允许模型和/或桥接器在独立节点或边缘设备上运行，而无需中央瓶颈。通过将记忆化与关系对齐解耦，RC桥接器为扩展多模型系统提供了框架，并开辟了原生多模态集成的路径。论文：[https://ssrn.com/abstract=6746521](https://ssrn.com/abstract=6746521) 代码：[https://github.com/pfekin/residual-coupling/](https://github.com/pfekin/residual-coupling/)

查看原文

水平扩展LLM：无需权重修改的隐藏状态耦合 [R]

相似文章

大规模下的Hidden Decoding: 大型语言模型的潜在计算扩展

$R^2$-dLLM：通过时空冗余削减加速扩散大语言模型

RLearner-LLM：通过混合直接偏好优化平衡大语言模型的逻辑基础与流畅性

学习，快与慢：走向持续适应的LLMs

自信扩展：针对自适应测试时间缩放的LLM置信度校准

提交意见反馈