sparse-transformer

标签

Cards List
#sparse-transformer

CSP-Atlas: 稀疏Python Transformer中的概念特异性神经回路

arXiv cs.CL · 2026-05-26 缓存

本文研究了稀疏8层Python Transformer中的神经回路,发现针对106个编程概念存在专用回路,并将其分解为概念特异性和令牌驱动组件,这对理解代码模型中的结构编码具有重要意义。

0 人收藏 0 人点赞
#sparse-transformer

使用稀疏Transformer进行生成建模

OpenAI Blog · 2019-04-23 缓存

OpenAI推出了稀疏Transformer,一种深度神经网络,将注意力机制的复杂度从O(N²)优化到O(N√N),使得能够对长度超过以前30倍的序列进行建模,适用于文本、图像和音频领域。该模型采用稀疏注意力模式和基于检查点的内存优化技术,可以训练深达128层的网络,在多个领域实现了最先进的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈