水平扩展LLM:无需权重修改的隐藏状态耦合 [R]
摘要
残差耦合(RC)使用轻量级学习线性桥接器并行连接冻结的语言模型,实现无需权重修改的水平扩展。与MoE相比,它最多可将困惑度降低80.7%,并在TruthfulQA上提升9.1个百分点的准确率。
残差耦合(RC)使用小型、可学习的线性桥接投影并行连接冻结的语言模型。这些桥接器从一个模型读取隐藏状态,并在中间层向另一个模型的残差流注入加法更新。在双向设置中,同时返回的桥接器形成一个反馈循环,稳定两个流而不改变基础权重。该架构建立了一个两步范式,其中基础模型充当记忆器,而轻量级线性桥接器处理跨领域泛化。将桥接器限制为纯线性映射可防止过拟合,因为它们只能映射冻结表示空间之间的现有几何关系。由于桥接器是针对真实目标数据进行优化的,它们没有动机去映射无根据的特征,例如单个模型的幻觉。保持基础权重完全冻结可以消除灾难性遗忘。系统保持操作封闭性,通过其现有结构转换输入,而不是改变自身以适应输入。
在相同的冻结模型上评估双向RC与混合专家(MoE)路由,结果显示:
* 医疗(3模型):将困惑度降至11.02,而MoE为56.80,冻结基线为57.08。这代表了80.7%的降低。
* TruthfulQA健康(MC1):准确率较基线提升9.1个百分点。独立模型的幻觉不相关,使得桥接门控能够放大一致性的跨模型更新,同时抑制个体错误。
* 编码测试:CodeGPT-small-py和GPT-2使用不同的分词器,导致不匹配文本上的基线困惑度为700万。MoE达到878,但RC通过读取输出投影崩溃前的隐藏状态实现了5.91。
该框架为多模型系统引入了水平扩展轴,超越了通过更大的单体模型进行垂直扩展的方式。延迟仍受限于最慢的单个模型。可以添加或移除专家模型而无需重新训练剩余系统。在某些场景中,该架构可以用单次并行前向传递取代代理工作流中的多轮文本提示,允许模型和/或桥接器在独立节点或边缘设备上运行,而无需中央瓶颈。通过将记忆化与关系对齐解耦,RC桥接器为扩展多模型系统提供了框架,并开辟了原生多模态集成的路径。
论文:[https://ssrn.com/abstract=6746521](https://ssrn.com/abstract=6746521) 代码:[https://github.com/pfekin/residual-coupling/](https://github.com/pfekin/residual-coupling/)
相似文章
$R^2$-dLLM:通过时空冗余削减加速扩散大语言模型
R²-dLLM 引入时空冗余削减技术,在保持生成质量的同时将扩散 LLM 的解码步数最多压缩 75%,直击部署瓶颈。
学习,快与慢:走向持续适应的LLMs
一种针对LLMs的快慢学习框架,将固定的慢权重与优化的快上下文权重相结合,在持续学习场景中实现了高达3倍的样本效率提升,并减少了灾难性遗忘。
River-LLM:基于 KV 共享的大模型无感早退方案
River-LLM 提出一种无需训练的 decoder-only 大模型早退框架,通过 KV 共享消除 KV-cache 缺口,在无损质量的前提下实现 1.71–2.16 倍推理加速。
体积微小,效果显著:大语言模型中的缩放向量研究
本文系统地研究了LLM归一化层中的缩放向量,揭示了它们通过自放大预条件效应优化训练,并提出了三种轻量级改进方案,在几乎不增加开销的情况下提升性能和扩展行为。
CompactQE: 通过小型开放权重LLMs实现可解释的翻译质量评估
本文证明,小型开放权重LLMs(参数小于30B)能够实现具有竞争力的可解释翻译质量评估,包括MQM错误标注和修正,与更大的专有模型相媲美,同时保护数据隐私。