attention

#attention

基于注意力折扣的自适应采样器用于掩码扩散语言模型

arXiv cs.CL ↗ · 2026-06-10 缓存

本文介绍了ADAS，一种无需训练的重排序规则，用于并行掩码扩散解码。它利用注意力对强烈关注不确定位置的token进行折扣，从而在低NFE设置下提升推理和代码任务的性能，且运行时开销极小。

0 人收藏 0 人点赞

#attention

InternVideo3: 使用多模态上下文推理将基础模型智能体化

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

InternVideo3 引入了多模态上下文推理（MCR）和高效注意力机制，以增强长时域多模态任务，在视频理解基准上取得了强劲的结果，并展示了视频智能体能力。

0 人收藏 0 人点赞

#attention

@rohanpaul_ai: 有趣，这篇论文表明Transformer可能不需要独立的键和值投影就能表现良好。这篇论文…

X AI KOLs Timeline ↗ · 2026-06-09 缓存

本论文研究了Transformer是否需要独立的键和值投影，发现共享它们可将KV缓存减少50%，而困惑度仅增加3.1%，并且与GQA和MQA结合时进一步减少。

0 人收藏 0 人点赞

#attention

@pallavishekhar_: 逐步学习LLM内部原理 - 从分词到注意力到推理优化 - BPE - 分词 - Tran…

X AI KOLs Timeline ↗ · 2026-06-09 缓存

一条推文，推广逐步学习LLM内部原理的资源，涵盖分词、注意力机制和优化技术。

0 人收藏 0 人点赞

#attention

@Potatoloogs: LLM 内部究竟怎么运作：从 token 到 next-token，九个核心机制完整梳理 a）Tokenization：模型读的不是文字，是整数 · 文本先被切成 subword 片段，再映射成整数 ID；现代 LLM 词表通常有数万到数…

X AI KOLs Timeline ↗ · 2026-06-08 缓存

本文从 tokenization 到 next-token 预测，系统梳理了现代 LLM 内部的九个核心机制，包括 tokenization、embedding、位置编码、注意力、多头注意力、前馈网络等，并比较了不同模型的架构差异。

0 人收藏 0 人点赞

#attention

WAV：面向深度仅解码器Transformer的多分辨率块残差路由

arXiv cs.LG ↗ · 2026-06-08 缓存

本文提出多分辨率残差路由方法WAV v1，这是块注意力残差机制的扩展，通过引入方向性细节基来增强块表示，从而改进深度仅解码器Transformer的训练效果。

0 人收藏 0 人点赞

#attention

大语言模型实际工作原理

Lobsters Hottest ↗ · 2026-06-07 缓存

深入剖析现代大语言模型的工作原理，涵盖从分词到下一个词预测的核心机制，无需复杂数学知识。

0 人收藏 0 人点赞

#attention

DyCo-RL: 动态跨模态协调用于视觉推理

Hugging Face Daily Papers ↗ · 2026-06-06 缓存

本文指出，视觉推理中的失败往往源于思维链生成过程中视觉与文本证据之间的动态跨模态协调崩溃。它介绍了DyCo-RL，一个强化学习框架，通过奖励有效的跨模态协调来提升推理性能。

0 人收藏 0 人点赞

#attention

自然语言推断的多粒度推理

arXiv cs.CL ↗ · 2026-06-05 缓存

提出了一种多粒度推理网络（MGRN），该网络显式利用层次语义特征进行自然语言推断，在多个基准测试中优于强基线模型。

0 人收藏 0 人点赞

#attention

@akshay_pachaar: 扩展上下文窗口不仅仅是关于更大的矩阵。在传统的Transformer中，将token数量扩大8倍会…

X AI KOLs Following ↗ · 2026-06-03 缓存

解释了由于注意力的二次复杂度，扩展Transformer上下文窗口所带来的内存挑战，并暗示了解决方案。

0 人收藏 0 人点赞

#attention

深层向量中的值向量是否需要来自残差流的上下文？

arXiv cs.CL ↗ · 2026-06-03 缓存

本文研究了 transformer 注意力机制中深层向量的值向量是否需要来自残差流的上下文。它提出了值银行（BoV），该方法在最后三分之一层中使用无上下文的、针对特定 token 的值向量，相比标准注意力机制，提高了验证损失和基准测试得分。

0 人收藏 0 人点赞

#attention

你的Transformer注意力熵坍缩不是Bug。模型只是在做你训练它做的事。以下是用三行温度调度修复它的方法。可投稿arXiv。自包含证明。无需引用。

Reddit r/ArtificialInteligence ↗ · 2026-06-02

文章解释了深度Transformer层中的注意力熵坍缩是训练带来的几何后果，而非Bug，并提出了一个三行温度调度来预防它。

0 人收藏 0 人点赞

#attention

我认为AI让我变笨了，而且我有证据

Reddit r/artificial ↗ · 2026-06-01

作者讲述了个人的经历：在使用AI工具两年后，其推理测试成绩大幅下降，引发了对短期生产力提升与长期认知能力损失之间权衡的担忧。

0 人收藏 0 人点赞

#attention

解决方案可能是取消我的AI订阅

Simon Willison's Blog ↗ · 2026-05-31 缓存

一篇反思性博客文章讨论了使用AI快速创建大量项目的问题，这可能导致注意力分散和缺乏有意义的跟进，同时也指出一些患有ADHD的人发现AI有助于他们集中注意力并完成任务。

0 人收藏 0 人点赞

#attention

解决方案或许是取消我的AI订阅

Hacker News Top ↗ · 2026-05-31 缓存

作者讲述了过度使用Claude和Codex等AI工具导致大量未完成项目并加剧注意力问题，最终决定取消AI订阅的经历。

0 人收藏 0 人点赞

#attention

Llama Surgery: 通过可微分超度量拓扑注入对预训练语言模型进行持续稀疏化

Reddit r/artificial ↗ · 2026-05-31

Llama Surgery 将学习到的块稀疏注意力拓扑注入预训练的 Llama 3.1 8B 中，无需从头重新训练，使用带有 Gumbel-Softmax 路由、温度退火和直通估计器的动态拓扑路由器以避免梯度崩溃，实现稳定收敛和连贯输出。

0 人收藏 0 人点赞

#attention

LongAttnComp: 面向长上下文推理的跨家族上下文压缩

Hugging Face Daily Papers ↗ · 2026-05-31 缓存

LongAttnComp 通过微调轻量级交叉注意力层并引入 token 级分块、top-p 算法、位置重排序和查询解析器，将 AttnComp 适配到长上下文推理。它在代码调试等长上下文任务上取得了强劲性能，并能跨多个模型家族迁移。

0 人收藏 0 人点赞

#attention

@zhaoran_wang: 对我来说，最酷的发现是你可以连接/插值所有 softmax/线性变体，并给出一个有前途的方向……

X AI KOLs Timeline ↗ · 2026-05-30 缓存

讨论了这样一个发现：所有 softmax/线性注意力变体都可以被插值，并且 Muon 优化器对于 Parallax 超越 Softmax Attention 至关重要。包含论文和代码链接。

0 人收藏 0 人点赞

#attention

@royvanrijn: 对于好奇的开发者，我构建了《大语言模型的解剖结构》，这是一个交互式解释器，展示了文本如何变成令牌、向量、注意力……

X AI KOLs Timeline ↗ · 2026-05-28 缓存

由 Roy van Rijn 构建的交互式可视化指南，解释了大语言模型的工作原理，从令牌化到注意力机制、Transformer 模块以及文本生成。

0 人收藏 0 人点赞

#attention

VideoMLA：用于分钟级自回归视频扩散的低秩潜变量KV缓存

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

VideoMLA 用共享的低秩潜变量和解耦的 3D-RoPE 位置键替换了视频扩散模型中每个头的 KV 缓存，在 B200 上将每个 token 的 KV 内存降低了 92.7%，吞吐量提升了 1.23 倍，同时在 VBench 基准测试中保持了质量。

0 人收藏 0 人点赞

attention

提交意见反馈