@akshay_pachaar: 扩展上下文窗口不仅仅是关于更大的矩阵。在传统的Transformer中,将token数量扩大8倍会…
摘要
解释了由于注意力的二次复杂度,扩展Transformer上下文窗口所带来的内存挑战,并暗示了解决方案。
查看缓存全文
缓存时间: 2026/06/03 13:50
你正在参加 OpenAI 的研究科学家面试。
面试官问:
“你如何将大语言模型的上下文长度从 2K 扩展到 128K token?”
你:“我会在 128K 上下文的长文档上微调模型。”
面试结束。
但以下是你遗漏的部分:
扩展上下文窗口不仅仅是矩阵变大那么简单。
在传统 Transformer 中,token 数量扩大 8 倍,由于注意力机制的二次复杂度,内存需求会扩大 64 倍。请看下图!
那么,我们该如何应对呢?
继续……
- 稀疏注意力(Sparse Attention)
它通过以下方式将注意力计算限制在 token 的子集上:
- 使用局部注意力(token 只关注邻居 token)。
- 让模型学习关注哪些 token。
但这会在计算复杂度和性能之间产生权衡。
以下是论文中的直观解释:
想象你在读一本书。对于你读的每一个句子,你是否需要完全了解整个情节才能理解大部分内容(全局注意力)?
还是只要知道当前章节的内容(局部注意力)就足够了,同时偶尔回想一下它与主要情节的关联(全局注意力)?
在绝大多数情况下,答案是后者。
- Flash Attention
这是一种快速且内存高效的方法,它保留了传统注意力机制的精确性,即使用全局注意力但更高效。
其核心理念是优化 GPU 内存中的数据传输。
让我们来理解!
一些背景知识:
- 线程 是执行的最小单位。
- 多个线程组成一个线程块。
此外:
- 线程块中的线程共享一个快速(但稀缺)的内存,称为 SRAM。
- 所有线程块共享一个全局内存,称为 HBM(容量大但速度慢)。
看这里
注意力机制在 SRAM 和 HBM 之间移动大型矩阵:
计算 QK 时:
- 将矩阵分发到线程
- 计算,然后
- 将乘积发送到 HBM
计算 softmax 时:
- 将乘积分发到线程
- 计算,然后
- 将输出发送到 HBM
对所有层重复操作。
看这里
Flash Attention 采用了硬件层面的优化,利用 SRAM 缓存中间结果。
这样,它减少了冗余的数据移动,相比标准注意力方法,速度提升可达 7.6 倍。
看这里
- DeepSeek 稀疏注意力(DeepSeek Sparse Attention, DSA)
DeepSeek 最近发布的 V3.2 模型引入了 DeepSeek 稀疏注意力(DSA),将复杂度从 O(L²) 降低到 O(Lk),其中 k 是固定的。
工作原理:
一个轻量级的 Lightning Indexer 对每个查询真正重要的 token 进行评分。
使用少量 head,以 FP8 运行,计算成本低。
然后,一个选择机制仅检索 top-k 的键值对。
关键洞察是:无论上下文长度如何,每个查询只选择 2048 个 token。
因此,昂贵的注意力计算只发生在这个小子集上,而不是整个 128K 序列。
在 128K 上下文下,预填充成本从每百万 token 约 $0.65 降至约 $0.35。解码成本从约 $2.4 降至约 $0.8。
而性能保持不变。在某些长上下文基准上,V3.2 实际上得分更高。
稀疏注意力并非新事物。但要在不损失质量的情况下使其奏效很难。
轮到你了:还有哪些其他技术可以增加大语言模型的上下文长度?
感谢阅读。
干杯!:)
相似文章
@akshay_pachaar: 你正在OpenAI参加研究科学家的面试。面试官问:“你如何将LLM的上下文长度从…”
一条推文讨论了如何在OpenAI的面试中回答关于将LLM上下文长度从2K扩展到128K个token的问题,并指出了常见的错误。
重新审视Padded Transformer的表达能力:哪些架构选择重要,哪些不重要
这篇理论论文分析了填充Transformer的表达能力,表明与数值精度和模型深度相比,注意力类型、宽度和均匀性的影响很小。它建立了Transformer变体与电路复杂性类(如AC0和TC0)之间的等价关系,提供了稳健的特征描述。
@gordic_aleksa: 新深度博文时刻:Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨,我…
一篇深入探讨现代密集Transformer内部工作原理的博文,涵盖YaRN(位置信息)、混合注意力(实现160k上下文长度)、soft capping、QK归一化,以及Transformer数学(包括FLOPs/Token公式和集群规模估算)。
观点:现实世界自回归Transformer的图灵完备性严重依赖于上下文管理
本立场论文澄清了Transformer图灵完备性的主张常常依赖于不切实际的扩展假设,并论证在现实世界的固定模型中,上下文管理是决定计算能力的关键因素。
@tilderesearch: https://x.com/tilderesearch/status/2061771450168889432
Wall Attention 将对角遗忘门泛化到 softmax 注意力,实现了从 4k 到 160k+ 上下文的零样本最先进长度外推,并且在预训练中优于 RoPE 和 FoX。它作为即插即用的替换方案发布,附带开源的 Triton 内核。