标签
本文分析了大型语言模型中的幻觉,将其视为三个架构决策的结构性后果:自注意力的共现学习、最大似然估计训练目标以及自回归解码的左到右承诺。它将每种机制映射到特定的幻觉类型,并论证了数据集病态会放大但不会导致这些脆弱性。
介绍了Kuramoto注意力,一种自注意力层,其中隐藏状态是环面上的相位角,通过门控余弦相似度和循环均值更新实现同步。该层在字符级语言建模上的性能与标准Transformer相当。
介绍贡献权重(Contribution Weights),这是一种基于投影的度量,它考虑了注意力权重、值向量的幅度和方向对齐,从而更准确地衡量Transformer大语言模型中的token重要性,揭示了注意力阱(attention sinks)的主动功能角色。
本文提出了一个将Transformer动力学视为概率测度上的非线性控制系统的数学框架,证明了高斯分布在流动下保持高斯性,简化为有限维双线性控制,并建立了可达性条件和渐近稳定性结果。
本文提供了大型语言模型中Transformer架构的可视化指南,涵盖自注意力、因果自注意力、掩码多头注意力以及输出层,并附有逐步解释和示例。
StateKV是一种推理时方法,通过将跨帧上下文携带在固定容量的循环状态中,实现长视频视觉语言模型的线性时间视频预填充,在无需微调的情况下保持接近完全自注意力的准确性。
本文研究检索增强生成作为上下文优化过程,表明线性自注意力可以在统一的RAG目标上实现梯度下降。它提出了一种轻量级方法,适用于冻结的RAG大语言模型,通过预测上下文条件的更新,在多个问答基准上提升了性能。
本文介绍了一篇关于视觉 Transformer 弹性注意力核的新论文,提出了一种核心-外围块稀疏注意力结构,与 DINOv3 等密集自注意力方法相比,该结构提高了可扩展性和准确率。
本文提出了一种利用时序自注意力进行元控制的架构,旨在对具有不可观测记忆状态的欧拉-拉格朗日系统进行自适应控制。在2自由度机械臂上的实验表明,该方法在追踪性能上优于基线方法,同时揭示了在长记忆机制下的失效模式。
一门高效AI课程的第12讲笔记,涵盖 Transformer 与 LLM 基础知识,包括多头注意力机制、位置编码、KV 缓存,以及模型架构与推理效率之间的关联。内容阐释了 Transformer 中的设计选择如何影响内存占用、延迟表现和硬件效率。