low-rank

标签

Cards List
#low-rank

训练Transformer:初始化时每层权重W = V·Uᵀ,揭示语料库确定的最优秩 — 寻找arXiv背书人 (cs.LG) [D]

Reddit r/MachineLearning · 昨天

本文为Transformer提出原生因子化权重(Native Factorized Weights),即每个线性层从初始化开始就训练为两个低秩矩阵的乘积。实验表明,存在一个由语料库决定的最优秩,可最小化验证损失,并形成一个泛化区间,以更少的参数超越密集基线模型。

0 人收藏 0 人点赞
#low-rank

DLR: 零推理成本的隐式残差用于低秩预训练

arXiv cs.LG · 5天前 缓存

引入重复隐式残差(DLR),这是一种仅训练、无参数的插件,用于低秩预训练,可提升从60M到7B参数的LLaMA模型的困惑度,并且训练后可折叠到模型中,推理成本为零。

0 人收藏 0 人点赞
#low-rank

低秩分布矩阵补全

arXiv cs.LG · 2026-06-04 缓存

本文提出了矩阵补全问题的一种分布性推广,其中每个条目是概率分布而非标量,利用核均值嵌入和Tucker秩来捕捉低秩结构。作者提出了一种新的估计器,并给出了非渐近误差界,通过在合成数据和真实世界数据上的实验证明了该方法的有效性。

0 人收藏 0 人点赞
#low-rank

基于低秩进化策略的脉冲神经网络无梯度训练

arXiv cs.AI · 2026-06-01 缓存

介绍了一种名为 Eggroll 的低秩进化策略,用于脉冲神经网络的无梯度训练,在 N-MNIST 上减少内存和时间开销,同时达到有竞争力的准确率。

0 人收藏 0 人点赞
#low-rank

VideoMLA:用于分钟级自回归视频扩散的低秩潜变量KV缓存

Hugging Face Daily Papers · 2026-05-28 缓存

VideoMLA 用共享的低秩潜变量和解耦的 3D-RoPE 位置键替换了视频扩散模型中每个头的 KV 缓存,在 B200 上将每个 token 的 KV 内存降低了 92.7%,吞吐量提升了 1.23 倍,同时在 VBench 基准测试中保持了质量。

0 人收藏 0 人点赞
#low-rank

符号胜过浮点:用于设备上微调的Low-Rank Double-Binary Adaptation

arXiv cs.LG · 2026-05-26 缓存

LoRDBA将LoRA的浮点低秩因子替换为二元符号载体和通道级缩放,实现了高效的设备上微调,显著减少了占用空间,延迟开销极小,质量与fp16相当。

0 人收藏 0 人点赞
#low-rank

模态解耦的在线递归编辑

arXiv cs.LG · 2026-05-21 缓存

提出M-ORE,一种模态解耦的在线递归编辑器,用于多模态大语言模型的终身适应,解决跨模态冲突和编辑间干扰,且每次编辑开销恒定。

0 人收藏 0 人点赞
#low-rank

捕捉移动子空间:超越平稳性的低秩老虎机

arXiv cs.LG · 2026-05-21 缓存

本文研究了分段平稳的低秩线性上下文老虎机,提出了SPSC算法,该算法实现了与内在秩(而非环境维度)成比例的动态遗憾,并刻画了在标量反馈下子空间恢复的辨识边界。

0 人收藏 0 人点赞
#low-rank

Orth-Dion: 消除分布式低秩谱优化中的几何失配

arXiv cs.LG · 2026-05-19 缓存

本文指出了Dion低秩谱优化器中的几何失配,并提出了Orth-Dion,该方案用QR正交化替换列归一化,以在相同通信成本下弥合与Muon等全秩方法的收敛差距,并在大规模语言模型预训练中进行了验证。

0 人收藏 0 人点赞
#low-rank

Δ-Mem:大型语言模型的高效在线记忆

Hacker News Top · 2026-05-16 缓存

提出 delta-Mem,一种轻量级在线记忆机制,利用紧凑状态矩阵并通过增量规则学习进行更新,以提升冻结大型语言模型的长上下文性能,无需全量微调或上下文扩展。

0 人收藏 0 人点赞
#low-rank

非对称流模型

Hugging Face Daily Papers · 2026-05-13 缓存

非对称流建模(AsymFlow)将噪声预测限制在低秩子空间,以实现高效的高维流生成,通过从潜在流模型微调,在ImageNet和文本到图像任务上取得了最先进的结果。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈