token-prediction

标签

Cards List
#token-prediction

混合模型能更好地预测哪些令牌?

Hugging Face Blog · 3天前 缓存

一项在令牌级别比较Olmo Hybrid和Olmo 3 Transformer的研究显示,混合模型能更好地预测有意义的令牌(如名词/动词),而Transformer模型则擅长从输入中复制令牌。

0 人收藏 0 人点赞
#token-prediction

@MatthieuWyart: LLMs通过预测token来学习。世界模型(JEPA、data2vec)通过预测自身的抽象表示来学习。哪种需要更多数据?

X AI KOLs Timeline · 2026-06-01 缓存

本文证明,对于具有隐藏结构的分层数据,通过预测潜在表示(如JEPA和data2vec等世界模型的做法)进行学习所需的数据量,远少于通过预测token(如LLMs的做法)进行学习,其差距呈指数级。

0 人收藏 0 人点赞
#token-prediction

早期剪枝学习!高效并行推理的路径剪枝方法

arXiv cs.CL · 2026-04-20 缓存

本文提出了 STOP(SuperTOken for Pruning),一个系统框架,用于在大型推理模型的并行推理中早期剪枝低效推理路径。该方法在 1.5B 到 20B 参数的模型中实现了优异的效率和效果,在固定计算预算下将 GPT-OSS-20B 在 AIME25 上的准确率从 84% 提升到 90%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈