@rasbt:总是回到基础:LatentMoE 可能受 MLA 启发,MLA 受 LoRA 启发,LoRA 受 SV…启发

X AI KOLs Timeline 新闻

摘要

Sebastian Raschka 指出,从 LatentMoE 到特征分解的灵感链:MLA、LoRA 和 SVD 层层启发。

总是回到基础: LatentMoE 可能受 MLA 启发,MLA 受 LoRA 启发,LoRA 受 SVD 启发,SVD 受特征分解启发。 https://t.co/bWqo5iOPbP
查看原文
查看缓存全文

缓存时间: 2026/06/10 23:58

始终回归基础: LatentMoE 可能受 MLA 启发,MLA 受 LoRA 启发,LoRA 受 SVD 启发,SVD 受特征分解启发。https://t.co/bWqo5iOPbP

相似文章

超越LoRA:稀疏诱导的适配是否更好?

arXiv cs.LG

本文提出了对LoRA的稀疏诱导适配方法,包括廉价LoRA(cLA)和链式循环变体(c³LA),并提供了理论泛化界以及实证评估,结果显示在保持竞争性性能的同时,训练时间最多减少10%,峰值GPU内存节省最多15%。

现代大语言模型与人类脑电图中共有的效价轴:饱和规律

arXiv cs.LG

本文发现了现代大语言模型与人类脑电图信号之间共有的效价轴(V-axis),表明LLM内部表示中的一个单一方向与对情感刺激的神经反应一致。它还识别了饱和规律,解释了为何基于LLM的监督无法改善脑电图解码,以及如何利用残差多样性提升性能。