标签
介绍了一种名为 Eggroll 的低秩进化策略,用于脉冲神经网络的无梯度训练,在 N-MNIST 上减少内存和时间开销,同时达到有竞争力的准确率。
This article explains the 'Token-In, Token-Out' (TITO) invariant in reinforcement learning for LLMs, highlighting a common error when training multi-turn agents with tool calls. It presents two solutions: using per-model renderers or designing training to avoid re-encoding decoded tokens, emphasizing prefix-preserving chat templates.
Modal 的 Nan Jiang 宣布他们正在开发开源 RL 框架以支持前沿的开放权重模型,重点介绍了增量压缩以及在权重同步和跨集群训练方面依然存在的挑战。
开发者反思在Nvidia上轻松进行本地AI任务,与在Apple Silicon上成功让一切运转的满足感对比,倡导‘保持饥饿,保持愚蠢’的心态。
本文证明,对BF16优化器状态使用随机舍入可以匹配FP32性能,因为无偏误差随时间抵消,而四舍五入则因累积偏差而停滞。一项使用MLP的实验表明,BF16+SR在减少内存使用的同时达到了与FP32相似的损失。
构建了一个仓库,用于在8GB显存上从零训练一个微型语言模型(25M参数),支持MTP,但指出mHC和BitNet的局限性。
Sakana AI 提出了 DiffusionBlocks,一种通过将前向传播解释为扩散去噪来分块训练神经网络的方法,与传统端到端反向传播相比,显著降低了内存需求。
一篇批评文章指出,在人类生成的数据上训练LLM限制了它们通过测试时计算发现新颖解决方案的能力,而真正的AGI需要模型能够像AlphaZero那样更广泛地探索假设空间。
NVIDIA发布了Polar,一个用于黑盒智能体强化学习的开源基础设施,支持使用任何智能体工具或框架训练如Claude Code或Codex等编码智能体。
文章认为,虽然很多人正在构建和销售AI代理,但真正的价值在于让它们发挥作用的工作流程和训练,而不是底层技术。
本文介绍了 Found in Conversation (FiC),一个使用视图非对称自蒸馏(View-Asymmetric Self-Distillation)的训练框架,旨在缩小 LLMs 中的多轮对话性能差距。该方法教会模型从欠详细的多轮提示中恢复单轮能力,在多种模型系列和规模上实现了 92-100% 的恢复率。
提出了一种用于训练输入凸神经网络(ICNN)的“提升”方法,该方法使用无约束的超网络生成非负的层间权重,从而软化损失景观并避免梯度衰减,相比投影梯度下降和softplus重参数化,实现了更低的测试损失。
本文系统地研究了LLM归一化层中的缩放向量,揭示了它们通过自放大预条件效应优化训练,并提出了三种轻量级改进方案,在几乎不增加开销的情况下提升性能和扩展行为。
文章指出,Cerebras芯片针对LLM推理和训练进行了优化,而非通用AI工作负载,并提醒不要过度炒作其能在所有AI领域挑战NVIDIA的能力。
Boston Dynamics 计划利用足球视频训练其人形机器人 Atlas,并在名为《School of Football》的在线系列中记录进展。
用户报告OpenAI的Codex GPT-5.5 high模型表现下降,出现懒惰、胡说八道和上下文丢失等问题,怀疑是OpenAI正在训练GPT-5.6所致,需开启xhigh模式才能恢复正常。
Elon Musk 宣布,Grok 基础模型 V9-Medium(1.5T 参数)已完成训练,评估表现强劲,将在微调和强化学习后于 2 到 3 周内公开发布。
Marin团队预先注册了一个129B参数MoE模型训练运行的预测损失为2.252,实际结果为2.234,展示了在训练前准确预测损失的能力。
Magma 是微软研究院推出的一个开源仓库,用于构建整合视觉、语言和行动的多模态 AI 智能体,提供模型链接、推理示例、训练说明和演示。
一篇帖子解释为什么理解内存中的数字格式对于学习LLM量化至关重要,涵盖梯度NaN调试、数值稳定性以及量化失真。