标签
FastMix 是一个新颖的框架,通过使用单个代理模型和双层优化自动发现训练大型模型的数据混合方式,实现了最先进的性能,并大幅提升效率。
Kairos是一个面向物理AI的原生世界模型框架,它通过跨具身数据课程从多样化的经验中学习,利用混合时序注意力维持持久状态,并支持在服务器和消费级硬件上高效部署。
Google DeepMind 预训练负责人 Vlad Feinberg 指出,内核开发和低层性能工程是AI前沿实验室需求旺盛的技能。
采访 Google DeepMind 预训练领域负责人 Vlad Feinberg,探讨如何在前沿 AI 实验室(如 Google DeepMind、Anthropic 或 OpenAI)找到工作,涵盖所需技能、研究 vs 工程的区别以及扩展定律。
本文通过构建基准测试并提出一种方法,将进一步预训练与权重差异迁移相结合,以更低的成本创建专门的指令遵循模型,从而解决无资源编程语言的代码生成问题。
本文介绍了LLM中的深度诅咒问题,即由于Pre-Layer Normalization导致输出方差爆炸,深层网络变得无效。作者提出LayerNorm Scaling来缓解这一问题,并在高达7B参数规模的模型上展示了预训练和微调的一致性改进。
一本230页的书,全面涵盖LLM概念,包括预训练、微调、对齐和提示技术。
本文引入了'脆弱性'这一探测精度的补充指标,它衡量导致探测精度崩溃的激活噪声水平,从而能够在精度饱和后分析LLM预训练过程中的表示演化。
一种名为ECHO的新方法通过在使用工具调用输出上进行下一个词预测,从环境中学习超越奖励信号,将世界建模与代理行为相结合,从而弥合了强化学习与预训练之间的差距。
CodeAlchemy 是一个合成数据生成框架,通过五种策略将公开可用的代码转换为语义丰富的训练数据,生成超过5000亿个 token,使得小型模型在代码基准测试上超越大得多的模型。
论文指出重复不匹配是数据混合实验无法扩展的主要原因,并提出了一种重复控制子采样程序,使得小规模实验能够使用远少于原先的token数量恢复出接近最优的混合方案。
3Blue1Brown 的新视频解释了LLM本质上是压缩机器,将下一个词预测与人类知识的高效编码联系起来,从而带来更好的抽象和推理能力。
西班牙 Multiverse Computing 的 Aizpurua 团队提出用小块量子电路为预训练大模型扩容,仅给 Llama 3.1 8B 增加约 6000 个参数即可降低困惑度 1.4%,验证了量子电路辅助大模型扩展的可行性。
详细介绍Cursor训练Composer 2的方法:以Kimi 2.5为基座,通过大规模中训练学习代码知识,再通过大规模RL让模型学会在真实环境中写出正确代码,并利用自我总结机制处理长上下文。
本文提出了一种混合预训练目标,结合了JEPA潜在空间预测和MLM重建,用于语言模型,显示出改进的嵌入均匀性和语义-词汇平衡。
一条推文线程,回顾了论文《使用NVFP4预训练大型语言模型》并讨论了NVFP4预训练,特别是针对NVIDIA Blackwell。
哈佛大学的研究人员挑战了标准的LLM训练流程,证明强化学习可以在预训练期间有效应用,而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要,并提出并行平均RL和SFT目标的方法,该方法在所有讨论的其他训练方法中表现出色,跨所有指标均优于它们,同时保持了通用能力。
本文介绍了ChristBERT,一个基于RoBERTa的面向德国临床NLP的领域特定语言模型家族,并在医学命名实体识别和文本分类任务上评估了三种领域适应策略(继续预训练、从头预训练和词汇适应),取得了最先进的结果。
本文介绍了遗憾预训练,一种基于自监督的框架,采用双视角架构将未来上下文融入因果语言模型训练中,在无需增加参数的情况下,将下游任务性能提升高达18个百分点。
解释中间训练作为预训练和后训练之间的一个阶段,基础模型在精选数据上继续训练,以增强特定能力,然后再进行指令微调。