pre-training

#pre-training

FastMix：通过梯度下降的快速数据混合优化

arXiv cs.LG ↗ · 2026-06-16 缓存

FastMix 是一个新颖的框架，通过使用单个代理模型和双层优化自动发现训练大型模型的数据混合方式，实现了最先进的性能，并大幅提升效率。

0 人收藏 0 人点赞

#pre-training

Kairos: 面向物理AI的原生世界模型栈

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

Kairos是一个面向物理AI的原生世界模型框架，它通过跨具身数据课程从多样化的经验中学习，利用混合时序注意力维持持久状态，并支持在服务器和消费级硬件上高效部署。

0 人收藏 0 人点赞

#pre-training

@Hesamation: Google DeepMind 预训练负责人解释了两项AI前沿实验室需求旺盛的技能：> 内核开发 > 低…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

Google DeepMind 预训练负责人 Vlad Feinberg 指出，内核开发和低层性能工程是AI前沿实验室需求旺盛的技能。

0 人收藏 0 人点赞

#pre-training

@ryanlpeterman: Vlad Feinberg (@FeinbergVlad) 是 Google DeepMind 的预训练领域负责人，我向他请教了如何在前沿 AI 实验室找到工作……

X AI KOLs Timeline ↗ · 2026-06-15 缓存

采访 Google DeepMind 预训练领域负责人 Vlad Feinberg，探讨如何在前沿 AI 实验室（如 Google DeepMind、Anthropic 或 OpenAI）找到工作，涵盖所需技能、研究 vs 工程的区别以及扩展定律。

0 人收藏 0 人点赞

#pre-training

无资源，无基准，没问题？评估与改进针对无资源语言的代码生成LLMs

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

本文通过构建基准测试并提出一种方法，将进一步预训练与权重差异迁移相结合，以更低的成本创建专门的指令遵循模型，从而解决无资源编程语言的代码生成问题。

0 人收藏 0 人点赞

#pre-training

大型语言模型中的深度诅咒

Lobsters Hottest ↗ · 2026-06-13 缓存

本文介绍了LLM中的深度诅咒问题，即由于Pre-Layer Normalization导致输出方差爆炸，深层网络变得无效。作者提出LayerNorm Scaling来缓解这一问题，并在高达7B参数规模的模型上展示了预训练和微调的一致性改进。

0 人收藏 0 人点赞

#pre-training

@_rohit_tiwari_: 这本230页的书揭示了LLM的秘密。https://drive.google.com/file/d/1ZqV0wByb65_wvzWUbaLw6pCbtXgyXDHG/view……

X AI KOLs Timeline ↗ · 2026-06-11 缓存

一本230页的书，全面涵盖LLM概念，包括预训练、微调、对齐和提示技术。

0 人收藏 0 人点赞

#pre-training

当探测精度饱和时，脆弱性解析：LLM预训练分析的补充指标

arXiv cs.CL ↗ · 2026-06-11 缓存

本文引入了'脆弱性'这一探测精度的补充指标，它衡量导致探测精度崩溃的激活噪声水平，从而能够在精度饱和后分析LLM预训练过程中的表示演化。

0 人收藏 0 人点赞

#pre-training

@samsja19: 非常激动人心的工作，旨在弥合强化学习与中期/预训练之间的差距。你可以从环境中学习，超越奖励信号……

X AI KOLs Following ↗ · 2026-06-10 缓存

一种名为ECHO的新方法通过在使用工具调用输出上进行下一个词预测，从环境中学习超越奖励信号，将世界建模与代理行为相结合，从而弥合了强化学习与预训练之间的差距。

0 人收藏 0 人点赞

#pre-training

CodeAlchemy：大规模合成代码重写

arXiv cs.CL ↗ · 2026-06-10 缓存

CodeAlchemy 是一个合成数据生成框架，通过五种策略将公开可用的代码转换为语义丰富的训练数据，生成超过5000亿个 token，使得小型模型在代码基准测试上超越大得多的模型。

0 人收藏 0 人点赞

#pre-training

重复不匹配：为何数据混合实验无法扩展以及如何修复

arXiv cs.LG ↗ · 2026-06-09 缓存

论文指出重复不匹配是数据混合实验无法扩展的主要原因，并提出了一种重复控制子采样程序，使得小规模实验能够使用远少于原先的token数量恢复出接近最优的混合方案。

0 人收藏 0 人点赞

#pre-training

@Hesamation: 3Blue1Brown 的新视频解释了为什么每个LLM实际上都是一台压缩机器。每个人都把预训练描述为“下一个...”

X AI KOLs Timeline ↗ · 2026-06-08 缓存

3Blue1Brown 的新视频解释了LLM本质上是压缩机器，将下一个词预测与人类知识的高效编码联系起来，从而带来更好的抽象和推理能力。

0 人收藏 0 人点赞

#pre-training

@FinanceYF5: 西班牙 Multiverse Computing 的 Aizpurua 团队提出用小块量子电路为预训练大模型扩容：不堆参数，而把复杂数学关系压进量子电路。给 Llama 3.1 8B 只加约 6000 个参数（不到原模型万分之一），困惑…

X AI KOLs Following ↗ · 2026-06-08 缓存

西班牙 Multiverse Computing 的 Aizpurua 团队提出用小块量子电路为预训练大模型扩容，仅给 Llama 3.1 8B 增加约 6000 个参数即可降低困惑度 1.4%，验证了量子电路辅助大模型扩展的可行性。

0 人收藏 0 人点赞

#pre-training

@Potatoloogs: Cursor训练Composer 2：预训练让模型"学知识"，RL让模型知道"自己是谁" a）为什么Cursor要训练自己的模型把模型想象成一块存储硬盘——它能存储的信息量有限。 Cursor只关心一件事：软件工程，且只在Cursor里…

X AI KOLs Timeline ↗ · 2026-06-05 缓存

详细介绍Cursor训练Composer 2的方法：以Kimi 2.5为基座，通过大规模中训练学习代码知识，再通过大规模RL让模型学会在真实环境中写出正确代码，并利用自我总结机制处理长上下文。

0 人收藏 0 人点赞

#pre-training

预测与重建：自监督语言表示学习的联合目标

arXiv cs.CL ↗ · 2026-06-05 缓存

本文提出了一种混合预训练目标，结合了JEPA潜在空间预测和MLM重建，用于语言模型，显示出改进的嵌入均匀性和语义-词汇平衡。

0 人收藏 0 人点赞

#pre-training

@nrehiew_：献给视觉学习者

X AI KOLs Timeline ↗ · 2026-06-05 缓存

一条推文线程，回顾了论文《使用NVFP4预训练大型语言模型》并讨论了NVFP4预训练，特别是针对NVIDIA Blackwell。

0 人收藏 0 人点赞

#pre-training

预训练期间的RL探索：重新审视LLM训练的策略优化

arXiv cs.LG ↗ · 2026-06-04 缓存

哈佛大学的研究人员挑战了标准的LLM训练流程，证明强化学习可以在预训练期间有效应用，而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要，并提出并行平均RL和SFT目标的方法，该方法在所有讨论的其他训练方法中表现出色，跨所有指标均优于它们，同时保持了通用能力。

0 人收藏 0 人点赞

#pre-training

词与道：面向德国医学自然语言处理的领域特定BERT预训练策略

arXiv cs.CL ↗ · 2026-06-03 缓存

本文介绍了ChristBERT，一个基于RoBERTa的面向德国临床NLP的领域特定语言模型家族，并在医学命名实体识别和文本分类任务上评估了三种领域适应策略（继续预训练、从头预训练和词汇适应），取得了最先进的结果。

0 人收藏 0 人点赞

#pre-training

遗憾预训练：连接先验与后验视角以增强知识接地

arXiv cs.CL ↗ · 2026-06-03 缓存

本文介绍了遗憾预训练，一种基于自监督的框架，采用双视角架构将未来上下文融入因果语言模型训练中，在无需增加参数的情况下，将下游任务性能提升高达18个百分点。

0 人收藏 0 人点赞

#pre-training

@NielsRogge: 什么是中间训练？预训练与后训练之间的阶段一个基础模型在更小、精选的数据集上继续训练……

X AI KOLs Timeline ↗ · 2026-06-02 缓存

解释中间训练作为预训练和后训练之间的一个阶段，基础模型在精选数据上继续训练，以增强特定能力，然后再进行指令微调。

0 人收藏 0 人点赞

pre-training

提交意见反馈