标签
Google Devs 讨论了使用数据集蒸馏在干净、结构化的示例上训练较小模型,以稳定解析器输出并教授模型可重复行为。
Cursor AI在其Compile主题演讲中宣布了三项更新,包括与SpaceX合作训练新模型。
一条推文推荐了Hugging Face上的'The Smol Training Playbook',这是一本为初学者揭秘模型训练的资源。
一篇关于知识蒸馏的教育性概述,涵盖其历史、核心概念(如softmax和温度)、类型、缩放定律以及包括DeepSeek-R1在内的实际示例。
GLM-5.2 使用一种技术来对抗奖励作弊,即通过检测并阻止可疑的工具调用,而不是惩罚模型,从而避免其他方法中常见的混淆问题。
在Cursor首次大会上,他们发布了从零训练的1.5T参数模型、GitHub直接替代品Origin以及iOS应用,这些发布超出市场预期。
Merve (@mervenoyann) 分享了使用多个小型 VLM 作为评判器的管线的第二天发现,在道路标志检测中仅用 1.3k 样本就达到了 map@50=0.8028。这条推文比较了模型拒绝率,讨论了数据集缩小、超具体提示以及泛化该库的计划。
一个帖子提出了一种通过众包计算创建社区AI模型的方法,利用Branch-Train-Stitch技术将独立训练的子模型组装成混合专家(MoE)模型,并讨论了硬件要求、参与者参与方式和技术挑战。
本文详细解释了机器学习中知识蒸馏的技术原理,指出仅靠收集ChatGPT/Claude的输出对话无法实现有效蒸馏,因为缺少概率分布信息,并讨论了SFT和预训练中使用生成数据的局限性。
对构建自我进化AI代理的两种方法的技术分析:基于模型的方法(通过像SSMs或具有快速权重更新的transformer等架构,以及训练方法)和基于工具的方法(通过内存或能够自我重写的元工具)。作者为不同受众提供了实用建议。
讨论人工智能模型如何在使用其自身开发者构建的框架时表现最佳,而第三方框架可能导致表现不佳,尽管基准测试成绩出色。文中引用了Claude Code(针对Claude模型)和Codex(针对GPT模型)等示例。
一个新的人工智能模型正在使用超过100万亿个令牌进行训练,是其他模型如Kimi、Mimo和DeepSeek通常使用的27-50万亿令牌预训练数据规模的两倍。
解释了前沿AI训练如何通过五个维度分配工作来使用多达2048块GPU,揭开了模型训练框架的神秘面纱。
在研发Evot过程中发现,要让Anthropic Opus模型发挥极致,官方Claude Code的方法是最优解,因为训练时将Agent Harness行为模式编入了权重,而非纯prompt工程;未来Agent Harness竞争将把行为下沉到模型层。
Cursor 发布了 Composer 2.5,这是其 AI 编程助手的重大更新,通过定向强化学习和增加计算资源,提升了智能、行为表现和训练效果,该版本基于 Moonshot 的 Kimi K2.5 构建。
一种新的训练方法通过允许模型在早期阶段更灵活地学习,实现了2-3倍的加速,类似于在家教育相对于工厂式教育的优势。
@mervenoyann 的演讲展示了开源模型(如 GLM 5.1)已赶上闭源模型,并说明了 Hugging Face 生态系统如何让智能体训练模型、执行推理和构建工作流。
由 William Barr Held 领导的 Marin AI 研究团队推出了 Delphi,这是一种通过预训练小模型来准确预测更大规模 25B 参数训练结果的方法论。该研究旨在建立可预测的缩放规律,以实现更高效的人工智能开源模型开发。
ml-intern 在 3 周内处理了超过 100 万条消息,加速了 ML 研究进程。用户项目涵盖模型训练、架构复现以及自动化任务等。
Fireworks AI 宣布其训练平台进入预览阶段,允许开发者训练、微调并部署自定义 AI 模型,同时完全拥有数据和模型权重。