标签
MegaTrain 通过将 VRAM 视为瞬时无状态缓存,反转内存层次结构,在单张 GPU 上实现了 100B 以上大语言模型的全精度训练。
DSpark 的进展更新:DFlash 骨干网络和马尔可夫头的训练已完成,可在 27B 上使用。接下来将训练置信度头以实现自适应草稿生成,预计比 DFlash 加速 8-14%。
该论文识别了语言模型在策略蒸馏中的位置偏差,即学生模型生成的答案中后面的token接收到的监督质量下降。所提出的重要性加权在策略蒸馏(IW-OPD)根据累积漂移对修正进行加权,提高了学习速度和最终性能。
解释了LLM预训练中FP8缩放的三种主要方法——per-tensor、blockwise和MXFP8——重点关注scale的附加方式,并根据scale必须在matmul的收缩维度上保持恒定这一约束,推导出tile几何形状。
Lilian Weng的博客文章全面概述了深度学习中的扩展定律,涵盖了它们的推导、计算最优分配以及Kaplan等人与Chinchilla之间的争论。
您现在可以使用 TRL 的 GRPO 和 RLOO 方法来训练 Liquid AI 的 LFM2-VL 模型,并提供了示例脚本。
Nathan Lambert 分享了一段视频讲座,涵盖了他书籍的前置知识,包括语言模型基础、概率和训练流程,使用 GLM 5.2 进行讲解。
这篇来自OpenAI的论文研究了基于有益行为的强化学习能否产生超越训练分布的广泛且持久的对齐泛化。通过使用一个包含真实场景的数据集,他们表明,对有益特质进行强化训练能够提升分布外的对齐能力,并增强对对抗性攻击的持久抵抗力。
一个AI智能体从一个提示训练编码智能体的实时演示,并回顾了所有产物。
Muennighoff宣布正在开发一个更好的Composer模型,扩展到Opus/GPT级别、从头训练,并超越编码,作为Cursor与SpaceX合作的一部分。
在预算配置下,使用4块RTX 3090 GPU和192GB内存运行GLM5.2,处理7万亿tokens。
Tmax 引入了一种简化的终端智能体强化学习训练配方,通过新颖的数据生成分类法和扩展的开源数据集,使用 9B 参数模型实现了最先进的性能。
WeightsLab 是一个开源、PyTorch 原生的工具,允许团队在训练过程中暂停、检查实时损失信号,并在数据问题(如标签错误和类别不平衡)影响模型性能之前发现它们。它专为处理图像、视频和 LiDAR 点云的计算机视觉工程师而设计。
一个推测性的讨论,质疑为什么LLMs没有被训练使用优化的内部语言而非自然语言来思考,以及这是否能提高效率。
据推测,Anthropic新模型Mythos于今年2月训练完成后,悄然改变了研发节奏,使得过去5个月AI能力显著跃升,领先模型正在帮助训练下一代模型。
代理强化训练器(ART)是一个开源框架,将基于GRPO的强化学习嵌入任何Python应用,使代理能够通过环境交互学习,利用轨迹评分和LoRA更新,据称使用Qwen 2.5 14B模型在邮件检索任务上超越OpenAI的o3。
MSI的RTX 5090 GPU在推理或训练时功耗为475-500W,并附有关于线缆弯折的警告。