我仅能腾出小规模来摆弄Transformer
摘要
一名学生介绍了Silia,这是一种新颖的Transformer架构,将注意力机制和前馈网络合并为统一操作,以在≤10M参数规模下节省参数,尽管计算资源有限,仍以更少的参数实现了与GPT-2相当的性能。
你好!我是一名来自印度的学生,这是我发表的第一篇论文。我很好奇是否可以将注意力机制和前馈网络(FFN)结合起来节省参数而不牺牲性能,特别是在参数≤10M的情况下。我的直觉是:注意力机制是动态的,能智能地决定混合哪些信息,但它没有强非线性来真正转换这些信息;而SwiGLU具有强非线性,但它是静态的,对每个输入使用相同的权重。因此,与其分别运行两者浪费参数,不如用注意力替换FFN中的静态线性矩阵,在一个统一操作中同时获得动态混合和强非线性。我并没有将这篇论文视为任何最终结论,因为我的硬件非常老旧,而且Google Colab也没有帮助我扩展规模,因为我没有它的订阅。所以我只是将这篇论文看作是我想法的介绍以及我在自己有限的规模上能够进行的实验。在添加摘要之前,我还想让你知道,仅训练0.8M参数的模型在我的PC上就花了8-10小时(在Google Colab上只需几分钟),而4M参数的模型(Google Colab不允许我训练)在我的PC上花了大约3-4天。这就是为什么我在论文中没有进行更多实验的原因。
**Abstract** > 著名论文`Attention Is All You Need`中引入的Transformer神经网络架构近年引发了人工智能开发的巨大浪潮。缩放点积注意力允许以更高的效率和质量处理信息,这是以前的RNN模型所缺乏的。然而,基于Transformer的模型也面临自身挑战,尤其是在参数≤5M的小型模型参数效率方面。在如此小的规模下,Transformer模型本质上使用的参数超过了实际需要。这个千万参数以下的领域空间非常未被充分探索,原因也很充分,但我还是想探索一下。因此,在这篇论文中,我介绍了Silia,一种新颖的Transformer架构,专为在严苛参数预算下进行高效建模和分类任务而设计。在与GPT-2架构(Andrej Karpathy的nanoGPT项目)使用相同的“base”超参数、训练数据和计算预算进行训练时,Silia以显著更少的参数实现了可比的损失和生成质量。谢谢 :)
相似文章
超越 FP16 + ONNX 的 Transformer 体积与推理优化(剪枝/图优化收效甚微)[P]
作者分享在 162 MB Transformer 上把 FP16 + ONNX + 剪枝用到极致却收益递减的经历,求教下一步该选量化、蒸馏、低秩分解还是硬件级技巧。
使用稀疏Transformer进行生成建模
OpenAI推出了稀疏Transformer,一种深度神经网络,将注意力机制的复杂度从O(N²)优化到O(N√N),使得能够对长度超过以前30倍的序列进行建模,适用于文本、图像和音频领域。该模型采用稀疏注意力模式和基于检查点的内存优化技术,可以训练深达128层的网络,在多个领域实现了最先进的性能。
@NFTCPS: 天天喊着搞AI,结果你连Transformer是个啥都说不清? 有个仓库够狠,从零手搓一个GPT,不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm,怎么拼起来的全摊给你看。而且不止模型,整条链…
一个GitHub开源项目,从零实现完整的GPT训练流程,包含数据预处理、预训练、SFT和RLHF后训练,全部基于原生PyTorch,适合想深入理解Transformer原理的开发者。
Transformer 可扩展性危机:现代语言模型中性能墙的首次全面实证分析
本文对 118 个 Transformer 模型进行了首次大规模实证分析,揭示了关键的性能墙,其中成功率从 512 token 时的 88.1% 下降到 2048 token 时的 0%,挑战了主流的缩放假设。
Transformer 数学探索器 [P]
这个交互式工具通过数据流图可视化 Transformer 模型的数学基础,涵盖了从 GPT-2 到 Qwen 3.6 的架构以及各种注意力机制。