水平扩展LLM:无需权重修改的隐藏状态耦合 [R]

Reddit r/MachineLearning 论文

摘要

残差耦合(RC)使用轻量级学习线性桥接器并行连接冻结的语言模型,实现无需权重修改的水平扩展。与MoE相比,它最多可将困惑度降低80.7%,并在TruthfulQA上提升9.1个百分点的准确率。

残差耦合(RC)使用小型、可学习的线性桥接投影并行连接冻结的语言模型。这些桥接器从一个模型读取隐藏状态,并在中间层向另一个模型的残差流注入加法更新。在双向设置中,同时返回的桥接器形成一个反馈循环,稳定两个流而不改变基础权重。该架构建立了一个两步范式,其中基础模型充当记忆器,而轻量级线性桥接器处理跨领域泛化。将桥接器限制为纯线性映射可防止过拟合,因为它们只能映射冻结表示空间之间的现有几何关系。由于桥接器是针对真实目标数据进行优化的,它们没有动机去映射无根据的特征,例如单个模型的幻觉。保持基础权重完全冻结可以消除灾难性遗忘。系统保持操作封闭性,通过其现有结构转换输入,而不是改变自身以适应输入。 在相同的冻结模型上评估双向RC与混合专家(MoE)路由,结果显示: * 医疗(3模型):将困惑度降至11.02,而MoE为56.80,冻结基线为57.08。这代表了80.7%的降低。 * TruthfulQA健康(MC1):准确率较基线提升9.1个百分点。独立模型的幻觉不相关,使得桥接门控能够放大一致性的跨模型更新,同时抑制个体错误。 * 编码测试:CodeGPT-small-py和GPT-2使用不同的分词器,导致不匹配文本上的基线困惑度为700万。MoE达到878,但RC通过读取输出投影崩溃前的隐藏状态实现了5.91。 该框架为多模型系统引入了水平扩展轴,超越了通过更大的单体模型进行垂直扩展的方式。延迟仍受限于最慢的单个模型。可以添加或移除专家模型而无需重新训练剩余系统。在某些场景中,该架构可以用单次并行前向传递取代代理工作流中的多轮文本提示,允许模型和/或桥接器在独立节点或边缘设备上运行,而无需中央瓶颈。通过将记忆化与关系对齐解耦,RC桥接器为扩展多模型系统提供了框架,并开辟了原生多模态集成的路径。 论文:[https://ssrn.com/abstract=6746521](https://ssrn.com/abstract=6746521) 代码:[https://github.com/pfekin/residual-coupling/](https://github.com/pfekin/residual-coupling/)
查看原文

相似文章

学习,快与慢:走向持续适应的LLMs

Hugging Face Daily Papers

一种针对LLMs的快慢学习框架,将固定的慢权重与优化的快上下文权重相结合,在持续学习场景中实现了高达3倍的样本效率提升,并减少了灾难性遗忘。