标签
本文介绍了ADAS,一种无需训练的重排序规则,用于并行掩码扩散解码。它利用注意力对强烈关注不确定位置的token进行折扣,从而在低NFE设置下提升推理和代码任务的性能,且运行时开销极小。
InternVideo3 引入了多模态上下文推理(MCR)和高效注意力机制,以增强长时域多模态任务,在视频理解基准上取得了强劲的结果,并展示了视频智能体能力。
本论文研究了Transformer是否需要独立的键和值投影,发现共享它们可将KV缓存减少50%,而困惑度仅增加3.1%,并且与GQA和MQA结合时进一步减少。
一条推文,推广逐步学习LLM内部原理的资源,涵盖分词、注意力机制和优化技术。
本文从 tokenization 到 next-token 预测,系统梳理了现代 LLM 内部的九个核心机制,包括 tokenization、embedding、位置编码、注意力、多头注意力、前馈网络等,并比较了不同模型的架构差异。
本文提出多分辨率残差路由方法WAV v1,这是块注意力残差机制的扩展,通过引入方向性细节基来增强块表示,从而改进深度仅解码器Transformer的训练效果。
本文指出,视觉推理中的失败往往源于思维链生成过程中视觉与文本证据之间的动态跨模态协调崩溃。它介绍了DyCo-RL,一个强化学习框架,通过奖励有效的跨模态协调来提升推理性能。
解释了由于注意力的二次复杂度,扩展Transformer上下文窗口所带来的内存挑战,并暗示了解决方案。
本文研究了 transformer 注意力机制中深层向量的值向量是否需要来自残差流的上下文。它提出了值银行(BoV),该方法在最后三分之一层中使用无上下文的、针对特定 token 的值向量,相比标准注意力机制,提高了验证损失和基准测试得分。
文章解释了深度Transformer层中的注意力熵坍缩是训练带来的几何后果,而非Bug,并提出了一个三行温度调度来预防它。
作者讲述了个人的经历:在使用AI工具两年后,其推理测试成绩大幅下降,引发了对短期生产力提升与长期认知能力损失之间权衡的担忧。
一篇反思性博客文章讨论了使用AI快速创建大量项目的问题,这可能导致注意力分散和缺乏有意义的跟进,同时也指出一些患有ADHD的人发现AI有助于他们集中注意力并完成任务。
Llama Surgery 将学习到的块稀疏注意力拓扑注入预训练的 Llama 3.1 8B 中,无需从头重新训练,使用带有 Gumbel-Softmax 路由、温度退火和直通估计器的动态拓扑路由器以避免梯度崩溃,实现稳定收敛和连贯输出。
LongAttnComp 通过微调轻量级交叉注意力层并引入 token 级分块、top-p 算法、位置重排序和查询解析器,将 AttnComp 适配到长上下文推理。它在代码调试等长上下文任务上取得了强劲性能,并能跨多个模型家族迁移。
讨论了这样一个发现:所有 softmax/线性注意力变体都可以被插值,并且 Muon 优化器对于 Parallax 超越 Softmax Attention 至关重要。包含论文和代码链接。
由 Roy van Rijn 构建的交互式可视化指南,解释了大语言模型的工作原理,从令牌化到注意力机制、Transformer 模块以及文本生成。
VideoMLA 用共享的低秩潜变量和解耦的 3D-RoPE 位置键替换了视频扩散模型中每个头的 KV 缓存,在 B200 上将每个 token 的 KV 内存降低了 92.7%,吞吐量提升了 1.23 倍,同时在 VBench 基准测试中保持了质量。