self-attention

标签

Cards List
#self-attention

从架构到输出:大型语言模型中幻觉的结构根源及数据的放大作用

arXiv cs.AI · 2026-06-11 缓存

本文分析了大型语言模型中的幻觉,将其视为三个架构决策的结构性后果:自注意力的共现学习、最大似然估计训练目标以及自回归解码的左到右承诺。它将每种机制映射到特定的幻觉类型,并论证了数据集病态会放大但不会导致这些脆弱性。

0 人收藏 0 人点赞
#self-attention

Kuramoto注意力:在环面上同步自注意力

arXiv cs.LG · 2026-06-11 缓存

介绍了Kuramoto注意力,一种自注意力层,其中隐藏状态是环面上的相位角,通过门控余弦相似度和循环均值更新实现同步。该层在字符级语言建模上的性能与标准Transformer相当。

0 人收藏 0 人点赞
#self-attention

贡献权重:自注意力Transformer的几何分析

arXiv cs.LG · 2026-06-09 缓存

介绍贡献权重(Contribution Weights),这是一种基于投影的度量,它考虑了注意力权重、值向量的幅度和方向对齐,从而更准确地衡量Transformer大语言模型中的token重要性,揭示了注意力阱(attention sinks)的主动功能角色。

0 人收藏 0 人点赞
#self-attention

高斯Transformer动力学的可达性与渐近性

arXiv cs.LG · 2026-06-09 缓存

本文提出了一个将Transformer动力学视为概率测度上的非线性控制系统的数学框架,证明了高斯分布在流动下保持高斯性,简化为有限维双线性控制,并建立了可达性条件和渐近稳定性结果。

0 人收藏 0 人点赞
#self-attention

@_rohit_tiwari_: https://x.com/_rohit_tiwari_/status/2063982924714901858

X AI KOLs Timeline · 2026-06-08 缓存

本文提供了大型语言模型中Transformer架构的可视化指南,涵盖自注意力、因果自注意力、掩码多头注意力以及输出层,并附有逐步解释和示例。

0 人收藏 0 人点赞
#self-attention

线性缩放视频VLM用于长视频理解

Hugging Face Daily Papers · 2026-05-29 缓存

StateKV是一种推理时方法,通过将跨帧上下文携带在固定容量的循环状态中,实现长视频视觉语言模型的线性时间视频预填充,在无需微调的情况下保持接近完全自注意力的准确性。

0 人收藏 0 人点赞
#self-attention

上下文优化下的检索增强生成:从梯度下降视角

arXiv cs.CL · 2026-05-27 缓存

本文研究检索增强生成作为上下文优化过程,表明线性自注意力可以在统一的RAG目标上实现梯度下降。它提出了一种轻量级方法,适用于冻结的RAG大语言模型,通过预测上下文条件的更新,在多个问答基准上提升了性能。

0 人收藏 0 人点赞
#self-attention

用于可扩展视觉 Transformer 的弹性注意力核 [R]

Reddit r/MachineLearning · 2026-05-13

本文介绍了一篇关于视觉 Transformer 弹性注意力核的新论文,提出了一种核心-外围块稀疏注意力结构,与 DINOv3 等密集自注意力方法相比,该结构提高了可扩展性和准确率。

0 人收藏 0 人点赞
#self-attention

用于具有不可观测记忆状态的欧拉-拉格朗日系统自适应控制的时序注意力

arXiv cs.LG · 2026-05-11 缓存

本文提出了一种利用时序自注意力进行元控制的架构,旨在对具有不可观测记忆状态的欧拉-拉格朗日系统进行自适应控制。在2自由度机械臂上的实验表明,该方法在追踪性能上优于基线方法,同时揭示了在长记忆机制下的失效模式。

0 人收藏 0 人点赞
#self-attention

@ickma2311: 高效AI 第12讲:Transformer 与 LLM 本讲不仅介绍 LLM 的工作原理,还深入讲解其底层构建模块……

X AI KOLs Timeline · 2026-05-09 缓存

一门高效AI课程的第12讲笔记,涵盖 Transformer 与 LLM 基础知识,包括多头注意力机制、位置编码、KV 缓存,以及模型架构与推理效率之间的关联。内容阐释了 Transformer 中的设计选择如何影响内存占用、延迟表现和硬件效率。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈