attention

#attention

高维动态旋转位置编码 [P]

Reddit r/MachineLearning ↗ · 2026-06-24

介绍了 HDD-RoPE，这是旋转位置编码的一种扩展，它使用高维块和数据相关的旋转速率，在 TinyStories 数据集上显示出比 xPos 更快的收敛速度。

0 人收藏 0 人点赞

#attention

内存墙变得昂贵：KV缓存是你应该停止崇拜softmax注意力的原因

Reddit r/singularity ↗ · 2026-06-24

文章讨论DDR5内存价格上涨如何标志着AI领域更广泛的内存瓶颈，特别是LLM中softmax注意力的KV缓存，并强调了旨在减少内存使用的后Transformer架构，如线性注意力和状态空间模型。

0 人收藏 0 人点赞

#attention

无需妥协的遗忘：固定预算下流式KV-Cache驱逐的Nexus采样

arXiv cs.LG ↗ · 2026-06-24 缓存

介绍了Nexus Sampling，一种无需训练的KV-cache驱逐方法，采用加权蓄水池采样代替确定性top-k选择，在固定内存预算下提升了长上下文LLM推理性能，在80%驱逐率下达到与密集注意力相匹配的性能。

0 人收藏 0 人点赞

#attention

我弄清楚了‘超级权重’的成因

Reddit r/ArtificialInteligence ↗ · 2026-06-23

本文解释了大语言模型中的超级权重源于SoftMax与注意力机制的相互作用，该作用创建了一个充当稳定参考点的‘Nothing Dump’标记；移除这些权重会严重损害模型性能。

0 人收藏 0 人点赞

#attention

Attention Is All You Need

Reddit r/ArtificialInteligence ↗ · 2026-06-22

对里程碑式论文《Attention Is All You Need》的反思，着重说明了如何通过去除循环并完全依赖注意力机制彻底改变了人工智能，并催生了像GPT和Claude这样的现代大语言模型。

0 人收藏 0 人点赞

#attention

@TheAhmadOsman: 不可思议的资源从第一性原理理解LLM的最完整指南现已可在网上阅读…

X AI KOLs Timeline ↗ · 2026-06-21 缓存

一份全面的免费指南，从第一性原理解释LLM，涵盖令牌、Transformer、注意力机制、微调和本地部署。

0 人收藏 0 人点赞

#attention

ITNet：一种可学习的积分变换，统一了卷积、注意力与递归

arXiv cs.AI ↗ · 2026-06-20 缓存

介绍 ITNet，一种基于可学习积分变换的神经网络架构，统一了卷积、注意力与递归，在多种模态上取得了强劲结果。

0 人收藏 0 人点赞

#attention

局部与全局注意力的双维度

arXiv cs.CL ↗ · 2026-06-18 缓存

提出距离自适应表示（DAR），该方法对远距离token降低键值维度，同时保留附近token的全维度，在不损失性能的前提下提升KV缓存效率。

0 人收藏 0 人点赞

#attention

QG-MIL：用于医学影像领域无关多实例学习的门控Transformer聚合器

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

本文介绍QG-MIL，一种门控Transformer聚合器，缓解了医学影像多实例学习中的注意力集中问题，无需辅助损失即可实现领域无关的性能。

0 人收藏 0 人点赞

#attention

Grouped Query Experts: GQA自注意力上的混合专家模型

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

Grouped Query Experts (GQE) 通过在分组查询注意力之上应用混合专家层来提高Transformer效率，每个token有选择地激活查询头，同时保持键值缓存优势，在2.5亿参数规模下，以一半的查询头计算量达到与基线相同的准确率。

0 人收藏 0 人点赞

#attention

HydraHead：从头部级功能异质性到专注意力混合

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

HydraHead 是一种新颖的注意力混合架构，通过在头部层级结合完全注意力和线性注意力，利用可解释性驱动的选择和尺度归一化融合，实现长上下文性能卓越并减少训练开销。

0 人收藏 0 人点赞

#attention

@sairahul1：没人告诉你GPT或Claude内部到底是什么。他们说“transformer”然后就略过了。这个仓库从头构建了一个……

X AI KOLs Timeline ↗ · 2026-06-15 缓存

一个仓库，从头构建transformer，不用高级库，解释注意力机制和完整训练流程，在免费Colab上一天内可训练。

0 人收藏 0 人点赞

#attention

@pradheepraop: 实现了 MSA 论文中内核设计部分的 top-k 内核。https://github.com/Mantissagithub/learn_c…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

从 MSA 论文内核设计部分实现了 top-k 内核，使用免指数比较和通过 CUDA shuffle 进行的 warp 级树合并。代码已发布于 GitHub。

0 人收藏 0 人点赞

#attention

@freeman1266: 不懂数学，也能看懂大多数 AI 论文——只要理解这条链路： token → embedding → 位置编码 → attention → FFN → 残差流 → next-token prediction LLM 本质上是把 Transf…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

一条中文科普推文，用直观方式解释了LLM（大语言模型）的核心链路：从token、embedding、位置编码、attention、FFN到残差流和next-token prediction，帮助非数学背景读者理解AI论文。

0 人收藏 0 人点赞

#attention

@Fluyeporlaweb：这位天才在 GitHub 上发布了一份逐步指南，教你从零开始构建和训练自己的模型。没有魔法……

X AI KOLs Timeline ↗ · 2026-06-15 缓存

Fluyeporlaweb 在 GitHub 上发布了一份指南，展示如何从零开始构建和训练 Transformer 模型，实现了注意力机制、多头注意力、嵌入以及训练后算法（SFT、PPO、DPO、GRPO），无需使用高级库，并在 The Pile 数据集上训练。

0 人收藏 0 人点赞

#attention

MiniMax Sparse Attention：百万令牌上下文（GitHub 仓库）

TLDR AI ↗ · 2026-06-15 缓存

MiniMaxAI 发布了 MSA，这是一个面向 NVIDIA SM100 GPU 优化的密集和稀疏注意力内核库，能够通过 FlashAttention 和稀疏 top-k 注意力高效处理百万令牌上下文。

0 人收藏 0 人点赞

#attention

@CamilleRoux: 对LLMs内部工作原理的精彩解释：tokens、embeddings、positional encoding、attention、feed-forward…

X AI KOLs Timeline ↗ · 2026-06-14 缓存

这条推文分享了一篇关于LLMs内部工作原理的详尽解释，涵盖了tokens、embeddings、positional encoding、attention和feed-forward网络，来源于0xkato的一篇博文。

1 人收藏 1 人点赞

#attention

我仅能腾出小规模来摆弄Transformer

Reddit r/LocalLLaMA ↗ · 2026-06-11

一名学生介绍了Silia，这是一种新颖的Transformer架构，将注意力机制和前馈网络合并为统一操作，以在≤10M参数规模下节省参数，尽管计算资源有限，仍以更少的参数实现了与GPT-2相当的性能。

0 人收藏 0 人点赞

#attention

Transformer注意力机制中的执行控制不足

Hacker News Top ↗ · 2026-06-10

本文讨论了Transformer注意力机制中执行控制的不足，强调了Transformer在处理序列依赖关系方面的局限性。

0 人收藏 0 人点赞

#attention

模糊窗口注意力

arXiv cs.LG ↗ · 2026-06-10 缓存

提出模糊窗口注意力（BLA），一种具有有界记忆控制的新型注意力方法，通过狄利克雷核插值重建模糊的KV历史，在多查询关联回忆任务上实现了比滑动窗口注意力高8倍的状态效率。

0 人收藏 0 人点赞

attention

提交意见反馈