标签
本文基于线性表示和叠加假设,引入了一个定量框架,用于估计Transformer语言模型的潜在空间能够支持多少近似正交的方向。作者将表示能力定义为可区分特征的上限,并表明它对允许的正交偏差呈指数敏感,且更大的模型倾向于更严格的约束。