token-prediction

#token-prediction

混合模型能更好地预测哪些令牌？

Hugging Face Blog ↗ · 3天前缓存

一项在令牌级别比较Olmo Hybrid和Olmo 3 Transformer的研究显示，混合模型能更好地预测有意义的令牌（如名词/动词），而Transformer模型则擅长从输入中复制令牌。

0 人收藏 0 人点赞

#token-prediction

@MatthieuWyart: LLMs通过预测token来学习。世界模型（JEPA、data2vec）通过预测自身的抽象表示来学习。哪种需要更多数据？

X AI KOLs Timeline ↗ · 2026-06-01 缓存

本文证明，对于具有隐藏结构的分层数据，通过预测潜在表示（如JEPA和data2vec等世界模型的做法）进行学习所需的数据量，远少于通过预测token（如LLMs的做法）进行学习，其差距呈指数级。

0 人收藏 0 人点赞

#token-prediction

早期剪枝学习！高效并行推理的路径剪枝方法

arXiv cs.CL ↗ · 2026-04-20 缓存

本文提出了 STOP（SuperTOken for Pruning），一个系统框架，用于在大型推理模型的并行推理中早期剪枝低效推理路径。该方法在 1.5B 到 20B 参数的模型中实现了优异的效率和效果，在固定计算预算下将 GPT-OSS-20B 在 AIME25 上的准确率从 84% 提升到 90%。

0 人收藏 0 人点赞

token-prediction

混合模型能更好地预测哪些令牌？

@MatthieuWyart: LLMs通过预测token来学习。世界模型（JEPA、data2vec）通过预测自身的抽象表示来学习。哪种需要更多数据？

早期剪枝学习！高效并行推理的路径剪枝方法

提交意见反馈