@sadhikesaven: 如今,大语言模型不再仅依靠人类数据构建。它们依赖其他LLM来生成训练数据、筛选语料…

X AI KOLs Timeline 工具

摘要

ModSleuth 是一个新工具,用于追踪现代大语言模型的依赖关系,揭示出像 OLMo 3 和 Nemotron 3 这样的模型依赖于数百个其他模型和数据集,凸显了从仅人类数据到AI生成的训练数据的转变。

如今,大语言模型不再仅依靠人类数据构建。它们依赖其他LLM来生成训练数据、筛选语料库、评估输出、提供奖励以及指导开发决策。那么,一个现代LLM建立在多少模型和数据集之上? • OLMo 3 → 89个模型 + 183个数据集依赖 • Nemotron 3 → 273个模型 + 560个数据集依赖 我们是如何发现的?我们构建了ModSleuth。
查看原文
查看缓存全文

缓存时间: 2026/06/12 02:51

如今,LLM 不再仅依靠人类数据来构建。它们依赖其他 LLM 来生成训练数据、筛选语料、评估输出、提供奖励,并指导开发决策。那么,一个现代 LLM 建立在多少模型和数据集之上?

• OLMo 3 → 89 个模型依赖 + 183 个数据集依赖
• Nemotron 3 → 273 个模型依赖 + 560 个数据集依赖

我们是如何发现的?我们构建了 ModSleuth。

模型之间的相互影响如今变得如此多样、复杂且递归,远远超出了人类追踪的能力。

因此,我们构建了 ModSleuth:一个能够自动重构模型依赖图的智能系统。

它读取论文、模型卡片、数据集卡片、代码、配置文件以及上游产物,然后将模型的“族谱”拼凑起来。

有些依赖链的深度可达 8 跳。

一个令人惊讶的发现:

借助 Claude Code(ModSleuth 就是基于它构建的),信息提取不再是主要瓶颈。

难点在于语义和表征方面:
• 什么才算是依赖?
• 不同名称何时指代同一个产物?
• 如何协调版本、模型家族、开发阶段和仓库之间的关系?

挑战不再是如何找到信息——而是如何理解它。

查阅论文,了解我们如何应对这些问题。

在 4 次开源发布中,ModSleuth 恢复了 1,060 个经源验证的依赖,链深度可达 8 跳。该图还揭示了一些难以手动发现的结论:
• 许可证相关的多跳路径
• 训练-评估耦合
• 论文、卡片与代码之间的不一致

演示:https://modsleuth.cal-data-audit.org
代码:https://github.com/cal-data-audit/modsleuth…
论文:https://arxiv.org/abs/2606.12385

感谢杰出的合作者 @CoderBak @sewon__min !!

相似文章

从零构建一个复古风格的LLM

Hacker News Top

作者记录了从零构建一个340M参数LLM的过程,该模型仅使用1900年以前的文本进行训练,包括自定义数据集、训练脚本,并开源了模型和代码。