@rasbt:总是回到基础:LatentMoE 可能受 MLA 启发,MLA 受 LoRA 启发,LoRA 受 SV…启发
摘要
Sebastian Raschka 指出,从 LatentMoE 到特征分解的灵感链:MLA、LoRA 和 SVD 层层启发。
查看缓存全文
缓存时间: 2026/06/10 23:58
始终回归基础: LatentMoE 可能受 MLA 启发,MLA 受 LoRA 启发,LoRA 受 SVD 启发,SVD 受特征分解启发。https://t.co/bWqo5iOPbP
相似文章
@rasbt: A little talk on what we can learn from implementing LLM architectures from scratch in Python and PyTorch. And how I ap…
Sebastian Raschka discusses the value of implementing LLM architectures from scratch in Python/PyTorch, sharing his workflow for understanding new open-weight models by dissecting configs, coding, and layer-by-layer debugging.
@rasbt: 感谢一位很棒的新读者贡献,我将 DeepSeek Sparse Attention (DSA) 从头实现的代码添加到了我的 LLMs-from-scratch 仓库中。
Sebastian Raschka 将 DeepSeek Sparse Attention (DSA) 的从头实现添加到了 LLMs-from-scratch 教育仓库中,包括动机、概述以及一个 GPT 风格的参考实现。
超越LoRA:稀疏诱导的适配是否更好?
本文提出了对LoRA的稀疏诱导适配方法,包括廉价LoRA(cLA)和链式循环变体(c³LA),并提供了理论泛化界以及实证评估,结果显示在保持竞争性性能的同时,训练时间最多减少10%,峰值GPU内存节省最多15%。
现代大语言模型与人类脑电图中共有的效价轴:饱和规律
本文发现了现代大语言模型与人类脑电图信号之间共有的效价轴(V-axis),表明LLM内部表示中的一个单一方向与对情感刺激的神经反应一致。它还识别了饱和规律,解释了为何基于LLM的监督无法改善脑电图解码,以及如何利用残差多样性提升性能。
@_avichawla:8种AI模型架构的视觉解析:人们往往把LLM视作整个领域,但它们只是其中一员……
对8种主要AI模型架构的可视化解析,包括LLM、VLM、MoE、SLM等,外加来自MIT的递归语言模型的额外介绍。