@WilliamBarrHeld: 要训练更好的开源模型,我们需要可预测的缩放。Delphi 是 Marin 迈出的第一步:我们预训练了许多小模型……

X AI KOLs Following 论文

摘要

由 William Barr Held 领导的 Marin AI 研究团队推出了 Delphi,这是一种通过预训练小模型来准确预测更大规模 25B 参数训练结果的方法论。该研究旨在建立可预测的缩放规律,以实现更高效的人工智能开源模型开发。

要训练更好的开源模型,我们需要可预测的缩放。 Delphi 是 Marin 迈出的第一步:我们使用同一套方案预训练了许多小模型,然后外推 300 倍,以仅 0.2% 的误差预测了 25B 参数 / 600B token 的训练任务。 为此我们付出了不少努力 🧵 https://t.co/HmlVFl11ag
查看原文
查看缓存全文

缓存时间: 2026/05/11 20:43

为了训练更好的开源模型,我们需要可预测的扩展性。

Delphi 是 Marin 迈出的第一步:我们使用同一套配方预训练了许多小型模型,随后进行了 300 倍外推,以预测一次 25B 参数 / 600B Token 的训练任务,误差仅为 0.2%。

为此我们付出了不少努力 🧵 https://t.co/HmlVFl11ag

相似文章

微调 API 功能改进和自定义模型项目扩展

OpenAI Blog

OpenAI 推出微调 API 的功能改进,包括基于轮次的检查点、用于模型评估的对比体验区、第三方集成和增强的仪表板功能。该公司还扩展了其自定义模型项目,为开发者提供更多对构建领域特定 AI 解决方案的控制和灵活性。

API 中的模型蒸馏

OpenAI Blog

# API 中的模型蒸馏 来源: [https://openai.com/index/api-model-distillation/](https://openai.com/index/api-model-distillation/) 我们推出了新的模型蒸馏服务,为开发者提供集成工作流,直接在 OpenAI 平台内管理整个蒸馏流程。这让开发者可以轻松利用 o1-preview 和 GPT-4o 等前沿模型的输出,来微调和提升 GPT-4o m 等更加经济高效的模型的性能