标签
作者详细介绍了从头开始预训练和后训练一个500M参数的语言模型和一个330M参数的图像生成器的过程。
本文研究了在数据受限、算力充足的场景下,为缓解自回归语言模型预训练中的过拟合而采用训练时数据增强技术,发现结合词元级噪声、序列排列和目标偏移预测可以改善验证损失。
本文发现,经过过滤和标注流水线处理的自我中心人类视频,在预训练具身基础模型时可以超越遥操作真实机器人数据,在真实机器人任务上实现了更低的验证损失和更高的成功率。
本文识别了LLM预训练中非均匀FP4量化格式的一个根本限制(收缩偏差),并提出了UFP4,一种优于现有基于E2M1方法的统一4位训练方案。
本文表明,降低参数初始化规模能持续改善大型语言模型的预训练,且在推理密集型任务上收益最大。它发现了一种平衡推理与训练的关键初始化,并提出一个简单的γ-初始化规则。
本文介绍了Spokes,一个基于G-Vendi分数的概率多样化框架,通过联合优化质量和多样性,在FineWeb和DCLM上实现了下游任务性能的显著提升。
Hugging Face 的 Joel Niklaus 将进行直播,探讨合成数据在推动预训练中的作用;团队还发布了一份关于该主题的实践指南。
ACE-EGO-0是一个统一的视觉-语言-动作预训练框架,利用第一人称人类视频和机器人轨迹,通过可靠性感知训练目标,在具身AI基准上达到了最先进水平。
AC-ODM 使用强化学习动态优化大语言模型的预训练数据组成,实现了更快的收敛速度和更高的下游任务准确率,且计算开销可忽略不计。
OpenMedQ 是一个完全开放的医学视觉语言模型,在 14 个数据集(约 335 万样本)上进行预训练,在医学 VQA 和分类基准上取得了最先进的结果。
本文提出了一种用于分子图变换器的概率对比预训练框架,以改善药物发现中的多任务ADME性质预测,在三个基准上取得了显著提升。
本文介绍了WebGraphMix,一个轻量级框架,利用来自Common Crawl的网络图中心性分数来选择预训练数据,实验表明混合中心文档与边缘文档能够提升语言模型性能。
本文研究了一种用于微预训练的分阶段提升协议,使用从分钟到小时递增的预算来筛选配置。研究发现,早期筛选是有用的但不稳定,并且分阶段方法可以保留长期参考,同时识别出未能通过继续阈值的替代方案。
LabVLA是一种面向科学实验室自动化的视觉-语言-动作模型,采用两阶段训练方法,结合动作令牌预训练与流匹配。通过在LabUtopia基准上利用模拟数据弥合家庭演示与实验室特定任务之间的差距,它实现了最先进的成功率。
本文系统评估了11种用于基础模型预训练的合成时间序列生成器,发现生成器的排名在不同架构下不稳定,但所有生成器的等权重混合结果与最佳单个生成器相当或更优。将这种混合与真实数据融合可得到最强的预训练语料,从而将合成预训练重新定义为语料组合问题而非生成器选择问题。
EditSR 提出了一种双层框架,将神经符号回归模型与基于编辑的修正器(Rectifier)相结合,以高效修正生成表达式中的结构错误,减少错误累积,并以有限的额外成本提高复杂符号结构的恢复能力。
GRASP 提出了一种几何感知、基于交互的可扩展预训练数据归因方法,该方法对子集动态进行建模,在任务级秩相关上比现有加性方法提升超过两倍,同时降低了计算成本。
本文研究数据受限的语言模型预训练,提出了掩码输入正则化(MIR)以改进验证损失和下游性能,以及SoftQ,一种更好地捕捉重复数据下模型与数据交互的缩放定律。
本文提出隐上下文语言模型(LCLMs),这是一系列编码器-解码器压缩器,通过架构搜索和大规模预训练高效处理长上下文,在准确性、速度和内存使用上优于传统KV缓存方法。
HRM-Text发布了一个1B参数的基础模型,声称仅需约$1000即可从零完成预训练,计算量和数据量减少数百倍,采用层级递归架构、潜在空间推理和PrefixLM packing等高效技术,论文与代码均已开源。