low-rank

#low-rank

训练Transformer：初始化时每层权重W = V·Uᵀ，揭示语料库确定的最优秩 — 寻找arXiv背书人 (cs.LG) [D]

Reddit r/MachineLearning ↗ · 昨天

本文为Transformer提出原生因子化权重（Native Factorized Weights），即每个线性层从初始化开始就训练为两个低秩矩阵的乘积。实验表明，存在一个由语料库决定的最优秩，可最小化验证损失，并形成一个泛化区间，以更少的参数超越密集基线模型。

0 人收藏 0 人点赞

#low-rank

DLR: 零推理成本的隐式残差用于低秩预训练

arXiv cs.LG ↗ · 5天前缓存

引入重复隐式残差（DLR），这是一种仅训练、无参数的插件，用于低秩预训练，可提升从60M到7B参数的LLaMA模型的困惑度，并且训练后可折叠到模型中，推理成本为零。

0 人收藏 0 人点赞

#low-rank

低秩分布矩阵补全

arXiv cs.LG ↗ · 2026-06-04 缓存

本文提出了矩阵补全问题的一种分布性推广，其中每个条目是概率分布而非标量，利用核均值嵌入和Tucker秩来捕捉低秩结构。作者提出了一种新的估计器，并给出了非渐近误差界，通过在合成数据和真实世界数据上的实验证明了该方法的有效性。

0 人收藏 0 人点赞

#low-rank

基于低秩进化策略的脉冲神经网络无梯度训练

arXiv cs.AI ↗ · 2026-06-01 缓存

介绍了一种名为 Eggroll 的低秩进化策略，用于脉冲神经网络的无梯度训练，在 N-MNIST 上减少内存和时间开销，同时达到有竞争力的准确率。

0 人收藏 0 人点赞

#low-rank

VideoMLA：用于分钟级自回归视频扩散的低秩潜变量KV缓存

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

VideoMLA 用共享的低秩潜变量和解耦的 3D-RoPE 位置键替换了视频扩散模型中每个头的 KV 缓存，在 B200 上将每个 token 的 KV 内存降低了 92.7%，吞吐量提升了 1.23 倍，同时在 VBench 基准测试中保持了质量。

0 人收藏 0 人点赞

#low-rank

符号胜过浮点：用于设备上微调的Low-Rank Double-Binary Adaptation

arXiv cs.LG ↗ · 2026-05-26 缓存

LoRDBA将LoRA的浮点低秩因子替换为二元符号载体和通道级缩放，实现了高效的设备上微调，显著减少了占用空间，延迟开销极小，质量与fp16相当。

0 人收藏 0 人点赞

#low-rank

模态解耦的在线递归编辑

arXiv cs.LG ↗ · 2026-05-21 缓存

提出M-ORE，一种模态解耦的在线递归编辑器，用于多模态大语言模型的终身适应，解决跨模态冲突和编辑间干扰，且每次编辑开销恒定。

0 人收藏 0 人点赞

#low-rank

捕捉移动子空间：超越平稳性的低秩老虎机

arXiv cs.LG ↗ · 2026-05-21 缓存

本文研究了分段平稳的低秩线性上下文老虎机，提出了SPSC算法，该算法实现了与内在秩（而非环境维度）成比例的动态遗憾，并刻画了在标量反馈下子空间恢复的辨识边界。

0 人收藏 0 人点赞

#low-rank

Orth-Dion: 消除分布式低秩谱优化中的几何失配

arXiv cs.LG ↗ · 2026-05-19 缓存

本文指出了Dion低秩谱优化器中的几何失配，并提出了Orth-Dion，该方案用QR正交化替换列归一化，以在相同通信成本下弥合与Muon等全秩方法的收敛差距，并在大规模语言模型预训练中进行了验证。

0 人收藏 0 人点赞

#low-rank

Δ-Mem：大型语言模型的高效在线记忆

Hacker News Top ↗ · 2026-05-16 缓存

提出 delta-Mem，一种轻量级在线记忆机制，利用紧凑状态矩阵并通过增量规则学习进行更新，以提升冻结大型语言模型的长上下文性能，无需全量微调或上下文扩展。

0 人收藏 0 人点赞

#low-rank

非对称流模型

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

非对称流建模（AsymFlow）将噪声预测限制在低秩子空间，以实现高效的高维流生成，通过从潜在流模型微调，在ImageNet和文本到图像任务上取得了最先进的结果。

0 人收藏 0 人点赞

low-rank

提交意见反馈