标签
本文为Transformer提出原生因子化权重(Native Factorized Weights),即每个线性层从初始化开始就训练为两个低秩矩阵的乘积。实验表明,存在一个由语料库决定的最优秩,可最小化验证损失,并形成一个泛化区间,以更少的参数超越密集基线模型。
引入重复隐式残差(DLR),这是一种仅训练、无参数的插件,用于低秩预训练,可提升从60M到7B参数的LLaMA模型的困惑度,并且训练后可折叠到模型中,推理成本为零。
本文提出了矩阵补全问题的一种分布性推广,其中每个条目是概率分布而非标量,利用核均值嵌入和Tucker秩来捕捉低秩结构。作者提出了一种新的估计器,并给出了非渐近误差界,通过在合成数据和真实世界数据上的实验证明了该方法的有效性。
介绍了一种名为 Eggroll 的低秩进化策略,用于脉冲神经网络的无梯度训练,在 N-MNIST 上减少内存和时间开销,同时达到有竞争力的准确率。
VideoMLA 用共享的低秩潜变量和解耦的 3D-RoPE 位置键替换了视频扩散模型中每个头的 KV 缓存,在 B200 上将每个 token 的 KV 内存降低了 92.7%,吞吐量提升了 1.23 倍,同时在 VBench 基准测试中保持了质量。
LoRDBA将LoRA的浮点低秩因子替换为二元符号载体和通道级缩放,实现了高效的设备上微调,显著减少了占用空间,延迟开销极小,质量与fp16相当。
本文研究了分段平稳的低秩线性上下文老虎机,提出了SPSC算法,该算法实现了与内在秩(而非环境维度)成比例的动态遗憾,并刻画了在标量反馈下子空间恢复的辨识边界。
本文指出了Dion低秩谱优化器中的几何失配,并提出了Orth-Dion,该方案用QR正交化替换列归一化,以在相同通信成本下弥合与Muon等全秩方法的收敛差距,并在大规模语言模型预训练中进行了验证。
提出 delta-Mem,一种轻量级在线记忆机制,利用紧凑状态矩阵并通过增量规则学习进行更新,以提升冻结大型语言模型的长上下文性能,无需全量微调或上下文扩展。
非对称流建模(AsymFlow)将噪声预测限制在低秩子空间,以实现高效的高维流生成,通过从潜在流模型微调,在ImageNet和文本到图像任务上取得了最先进的结果。