pretraining

#pretraining

EMO：通过预训练混合专家实现涌现模块化

Hugging Face Blog ↗ · 昨天缓存

Allen AI 发布了 EMO 模型，这是一种混合专家模型，其中模块化结构从数据中自然涌现，使得仅使用 12.5% 的专家就能完成一项任务，同时保持接近完整模型的性能。

0 人收藏 0 人点赞

#pretraining

EMO：用于涌现模块化的专家混合模型预训练

Hugging Face Daily Papers ↗ · 2天前缓存

EMO 是一种专家混合模型（Mixture-of-Experts），通过将相似领域的词元与共享专家分组实现模块化部署，在保持与标准 MoE 相当的性能的同时，支持显著的专家剪枝（保留 25% 的专家即可保留 99% 的性能）且不会导致性能下降。

0 人收藏 0 人点赞

#pretraining

# 大语言模型预训练的数据混合：综述与展望来源：[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要：大型语言模型（LLMs）依赖于在海量且异构的语料上进行预训练，在现实中的计算和数据预算限制下，训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同，数据混

0 人收藏 0 人点赞

#pretraining

TIPSv2：以更强的块-文本对齐推进视觉-语言预训练

Hugging Face Daily Papers ↗ · 2026-04-13 缓存

# 论文页面 - TIPSv2：以更强的块-文本对齐推进视觉-语言预训练来源：[https://huggingface.co/papers/2604.12012](https://huggingface.co/papers/2604.12012) 发布时间：4 月 13 日 · 提交者 [https://huggingface.co/bingyic](https://huggingface.co/bingyic) [![](https://huggingface.co/avatars/05be62f5927b8586ef7cb927d47dcd83.svg)](https://huggingface.co/bingyic) [bingyi](https://huggingface.co/bingyic) 于 4 月 20 日作者：，，，，，，，，，，，，，，，，，## 摘要

0 人收藏 0 人点赞

#pretraining

语言模型学习什么以及何时学习？隐性课程假设

Hugging Face Daily Papers ↗ · 2026-04-09 缓存

本文提出隐性课程假设，证明语言模型预训练遵循一个结构化的、组合性的课程，其中能力跨架构一致涌现，并可从内部表示预测。作者通过设计涵盖检索、形态学、共指消解、推理和数学的任务进行验证，发现四个模型族中涌现顺序高度一致（ρ=0.81）。

0 人收藏 0 人点赞

pretraining

EMO：通过预训练混合专家实现涌现模块化

EMO：用于涌现模块化的专家混合模型预训练

大语言模型预训练的数据混合：综述与展望

TIPSv2：以更强的块-文本对齐推进视觉-语言预训练

语言模型学习什么以及何时学习？隐性课程假设

提交意见反馈