pretraining

标签

Cards List
#pretraining

EMO:通过预训练混合专家实现涌现模块化

Hugging Face Blog · 昨天 缓存

Allen AI 发布了 EMO 模型,这是一种混合专家模型,其中模块化结构从数据中自然涌现,使得仅使用 12.5% 的专家就能完成一项任务,同时保持接近完整模型的性能。

0 人收藏 0 人点赞
#pretraining

EMO:用于涌现模块化的专家混合模型预训练

Hugging Face Daily Papers · 2天前 缓存

EMO 是一种专家混合模型(Mixture-of-Experts),通过将相似领域的词元与共享专家分组实现模块化部署,在保持与标准 MoE 相当的性能的同时,支持显著的专家剪枝(保留 25% 的专家即可保留 99% 的性能)且不会导致性能下降。

0 人收藏 0 人点赞
#pretraining

大语言模型预训练的数据混合:综述与展望

arXiv cs.CL · 2026-04-21 缓存

# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混

0 人收藏 0 人点赞
#pretraining

TIPSv2:以更强的块-文本对齐推进视觉-语言预训练

Hugging Face Daily Papers · 2026-04-13 缓存

# 论文页面 - TIPSv2:以更强的块-文本对齐推进视觉-语言预训练 来源:[https://huggingface.co/papers/2604.12012](https://huggingface.co/papers/2604.12012) 发布时间:4 月 13 日 · 提交者 [https://huggingface.co/bingyic](https://huggingface.co/bingyic) [![](https://huggingface.co/avatars/05be62f5927b8586ef7cb927d47dcd83.svg)](https://huggingface.co/bingyic) [bingyi](https://huggingface.co/bingyic) 于 4 月 20 日 作者:,,,,,,,,,,,,,,,,,## 摘要

0 人收藏 0 人点赞
#pretraining

语言模型学习什么以及何时学习?隐性课程假设

Hugging Face Daily Papers · 2026-04-09 缓存

本文提出隐性课程假设,证明语言模型预训练遵循一个结构化的、组合性的课程,其中能力跨架构一致涌现,并可从内部表示预测。作者通过设计涵盖检索、形态学、共指消解、推理和数学的任务进行验证,发现四个模型族中涌现顺序高度一致(ρ=0.81)。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈