self-attention

#self-attention

从架构到输出：大型语言模型中幻觉的结构根源及数据的放大作用

arXiv cs.AI ↗ · 2026-06-11 缓存

本文分析了大型语言模型中的幻觉，将其视为三个架构决策的结构性后果：自注意力的共现学习、最大似然估计训练目标以及自回归解码的左到右承诺。它将每种机制映射到特定的幻觉类型，并论证了数据集病态会放大但不会导致这些脆弱性。

0 人收藏 0 人点赞

#self-attention

Kuramoto注意力：在环面上同步自注意力

arXiv cs.LG ↗ · 2026-06-11 缓存

介绍了Kuramoto注意力，一种自注意力层，其中隐藏状态是环面上的相位角，通过门控余弦相似度和循环均值更新实现同步。该层在字符级语言建模上的性能与标准Transformer相当。

0 人收藏 0 人点赞

#self-attention

贡献权重：自注意力Transformer的几何分析

arXiv cs.LG ↗ · 2026-06-09 缓存

介绍贡献权重（Contribution Weights），这是一种基于投影的度量，它考虑了注意力权重、值向量的幅度和方向对齐，从而更准确地衡量Transformer大语言模型中的token重要性，揭示了注意力阱（attention sinks）的主动功能角色。

0 人收藏 0 人点赞

#self-attention

高斯Transformer动力学的可达性与渐近性

arXiv cs.LG ↗ · 2026-06-09 缓存

本文提出了一个将Transformer动力学视为概率测度上的非线性控制系统的数学框架，证明了高斯分布在流动下保持高斯性，简化为有限维双线性控制，并建立了可达性条件和渐近稳定性结果。

0 人收藏 0 人点赞

#self-attention

@_rohit_tiwari_: https://x.com/_rohit_tiwari_/status/2063982924714901858

X AI KOLs Timeline ↗ · 2026-06-08 缓存

本文提供了大型语言模型中Transformer架构的可视化指南，涵盖自注意力、因果自注意力、掩码多头注意力以及输出层，并附有逐步解释和示例。

0 人收藏 0 人点赞

#self-attention

线性缩放视频VLM用于长视频理解

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

StateKV是一种推理时方法，通过将跨帧上下文携带在固定容量的循环状态中，实现长视频视觉语言模型的线性时间视频预填充，在无需微调的情况下保持接近完全自注意力的准确性。

0 人收藏 0 人点赞

#self-attention

上下文优化下的检索增强生成：从梯度下降视角

arXiv cs.CL ↗ · 2026-05-27 缓存

本文研究检索增强生成作为上下文优化过程，表明线性自注意力可以在统一的RAG目标上实现梯度下降。它提出了一种轻量级方法，适用于冻结的RAG大语言模型，通过预测上下文条件的更新，在多个问答基准上提升了性能。

0 人收藏 0 人点赞

#self-attention

用于可扩展视觉 Transformer 的弹性注意力核 [R]

Reddit r/MachineLearning ↗ · 2026-05-13

本文介绍了一篇关于视觉 Transformer 弹性注意力核的新论文，提出了一种核心-外围块稀疏注意力结构，与 DINOv3 等密集自注意力方法相比，该结构提高了可扩展性和准确率。

0 人收藏 0 人点赞

#self-attention

用于具有不可观测记忆状态的欧拉-拉格朗日系统自适应控制的时序注意力

arXiv cs.LG ↗ · 2026-05-11 缓存

本文提出了一种利用时序自注意力进行元控制的架构，旨在对具有不可观测记忆状态的欧拉-拉格朗日系统进行自适应控制。在2自由度机械臂上的实验表明，该方法在追踪性能上优于基线方法，同时揭示了在长记忆机制下的失效模式。

0 人收藏 0 人点赞

#self-attention

@ickma2311: 高效AI 第12讲：Transformer 与 LLM 本讲不仅介绍 LLM 的工作原理，还深入讲解其底层构建模块……

X AI KOLs Timeline ↗ · 2026-05-09 缓存

一门高效AI课程的第12讲笔记，涵盖 Transformer 与 LLM 基础知识，包括多头注意力机制、位置编码、KV 缓存，以及模型架构与推理效率之间的关联。内容阐释了 Transformer 中的设计选择如何影响内存占用、延迟表现和硬件效率。

0 人收藏 0 人点赞

self-attention

提交意见反馈