标签
一项在令牌级别比较Olmo Hybrid和Olmo 3 Transformer的研究显示,混合模型能更好地预测有意义的令牌(如名词/动词),而Transformer模型则擅长从输入中复制令牌。
本文证明,对于具有隐藏结构的分层数据,通过预测潜在表示(如JEPA和data2vec等世界模型的做法)进行学习所需的数据量,远少于通过预测token(如LLMs的做法)进行学习,其差距呈指数级。
本文提出了 STOP(SuperTOken for Pruning),一个系统框架,用于在大型推理模型的并行推理中早期剪枝低效推理路径。该方法在 1.5B 到 20B 参数的模型中实现了优异的效率和效果,在固定计算预算下将 GPT-OSS-20B 在 AIME25 上的准确率从 84% 提升到 90%。