标签
介绍了 HDD-RoPE,这是旋转位置编码的一种扩展,它使用高维块和数据相关的旋转速率,在 TinyStories 数据集上显示出比 xPos 更快的收敛速度。
文章讨论DDR5内存价格上涨如何标志着AI领域更广泛的内存瓶颈,特别是LLM中softmax注意力的KV缓存,并强调了旨在减少内存使用的后Transformer架构,如线性注意力和状态空间模型。
介绍了Nexus Sampling,一种无需训练的KV-cache驱逐方法,采用加权蓄水池采样代替确定性top-k选择,在固定内存预算下提升了长上下文LLM推理性能,在80%驱逐率下达到与密集注意力相匹配的性能。
本文解释了大语言模型中的超级权重源于SoftMax与注意力机制的相互作用,该作用创建了一个充当稳定参考点的‘Nothing Dump’标记;移除这些权重会严重损害模型性能。
对里程碑式论文《Attention Is All You Need》的反思,着重说明了如何通过去除循环并完全依赖注意力机制彻底改变了人工智能,并催生了像GPT和Claude这样的现代大语言模型。
一份全面的免费指南,从第一性原理解释LLM,涵盖令牌、Transformer、注意力机制、微调和本地部署。
介绍 ITNet,一种基于可学习积分变换的神经网络架构,统一了卷积、注意力与递归,在多种模态上取得了强劲结果。
提出距离自适应表示(DAR),该方法对远距离token降低键值维度,同时保留附近token的全维度,在不损失性能的前提下提升KV缓存效率。
本文介绍QG-MIL,一种门控Transformer聚合器,缓解了医学影像多实例学习中的注意力集中问题,无需辅助损失即可实现领域无关的性能。
Grouped Query Experts (GQE) 通过在分组查询注意力之上应用混合专家层来提高Transformer效率,每个token有选择地激活查询头,同时保持键值缓存优势,在2.5亿参数规模下,以一半的查询头计算量达到与基线相同的准确率。
HydraHead 是一种新颖的注意力混合架构,通过在头部层级结合完全注意力和线性注意力,利用可解释性驱动的选择和尺度归一化融合,实现长上下文性能卓越并减少训练开销。
一个仓库,从头构建transformer,不用高级库,解释注意力机制和完整训练流程,在免费Colab上一天内可训练。
从 MSA 论文内核设计部分实现了 top-k 内核,使用免指数比较和通过 CUDA shuffle 进行的 warp 级树合并。代码已发布于 GitHub。
一条中文科普推文,用直观方式解释了LLM(大语言模型)的核心链路:从token、embedding、位置编码、attention、FFN到残差流和next-token prediction,帮助非数学背景读者理解AI论文。
Fluyeporlaweb 在 GitHub 上发布了一份指南,展示如何从零开始构建和训练 Transformer 模型,实现了注意力机制、多头注意力、嵌入以及训练后算法(SFT、PPO、DPO、GRPO),无需使用高级库,并在 The Pile 数据集上训练。
MiniMaxAI 发布了 MSA,这是一个面向 NVIDIA SM100 GPU 优化的密集和稀疏注意力内核库,能够通过 FlashAttention 和稀疏 top-k 注意力高效处理百万令牌上下文。
这条推文分享了一篇关于LLMs内部工作原理的详尽解释,涵盖了tokens、embeddings、positional encoding、attention和feed-forward网络,来源于0xkato的一篇博文。
一名学生介绍了Silia,这是一种新颖的Transformer架构,将注意力机制和前馈网络合并为统一操作,以在≤10M参数规模下节省参数,尽管计算资源有限,仍以更少的参数实现了与GPT-2相当的性能。
本文讨论了Transformer注意力机制中执行控制的不足,强调了Transformer在处理序列依赖关系方面的局限性。
提出模糊窗口注意力(BLA),一种具有有界记忆控制的新型注意力方法,通过狄利克雷核插值重建模糊的KV历史,在多查询关联回忆任务上实现了比滑动窗口注意力高8倍的状态效率。