@sadhikesaven: 如今，大语言模型不再仅依靠人类数据构建。它们依赖其他LLM来生成训练数据、筛选语料…

X AI KOLs Timeline 2026/06/11 16:05 工具

摘要

ModSleuth 是一个新工具，用于追踪现代大语言模型的依赖关系，揭示出像 OLMo 3 和 Nemotron 3 这样的模型依赖于数百个其他模型和数据集，凸显了从仅人类数据到AI生成的训练数据的转变。

如今，大语言模型不再仅依靠人类数据构建。它们依赖其他LLM来生成训练数据、筛选语料库、评估输出、提供奖励以及指导开发决策。那么，一个现代LLM建立在多少模型和数据集之上？ • OLMo 3 → 89个模型 + 183个数据集依赖 • Nemotron 3 → 273个模型 + 560个数据集依赖我们是如何发现的？我们构建了ModSleuth。

查看原文

查看缓存全文

缓存时间: 2026/06/12 02:51

如今，LLM 不再仅依靠人类数据来构建。它们依赖其他 LLM 来生成训练数据、筛选语料、评估输出、提供奖励，并指导开发决策。那么，一个现代 LLM 建立在多少模型和数据集之上？

• OLMo 3 → 89 个模型依赖 + 183 个数据集依赖
• Nemotron 3 → 273 个模型依赖 + 560 个数据集依赖

我们是如何发现的？我们构建了 ModSleuth。

模型之间的相互影响如今变得如此多样、复杂且递归，远远超出了人类追踪的能力。

因此，我们构建了 ModSleuth：一个能够自动重构模型依赖图的智能系统。

它读取论文、模型卡片、数据集卡片、代码、配置文件以及上游产物，然后将模型的“族谱”拼凑起来。

有些依赖链的深度可达 8 跳。

一个令人惊讶的发现：

借助 Claude Code（ModSleuth 就是基于它构建的），信息提取不再是主要瓶颈。

难点在于语义和表征方面：
• 什么才算是依赖？
• 不同名称何时指代同一个产物？
• 如何协调版本、模型家族、开发阶段和仓库之间的关系？

挑战不再是如何找到信息——而是如何理解它。

查阅论文，了解我们如何应对这些问题。

在 4 次开源发布中，ModSleuth 恢复了 1,060 个经源验证的依赖，链深度可达 8 跳。该图还揭示了一些难以手动发现的结论：
• 许可证相关的多跳路径
• 训练-评估耦合
• 论文、卡片与代码之间的不一致

演示：https://modsleuth.cal-data-audit.org
代码：https://github.com/cal-data-audit/modsleuth…
论文：https://arxiv.org/abs/2606.12385

感谢杰出的合作者 @CoderBak @sewon__min ！！

@sadhikesaven: 如今，大语言模型不再仅依靠人类数据构建。它们依赖其他LLM来生成训练数据、筛选语料…

相似文章

我们的模型基于哪些模型？审计现代LLM中的隐形依赖关系

我们一直在分析人们如何在法律与合规任务中使用LLM（GDPR、AI法案等）。

@neural_avb: 如果你仔细想想，2026年的LLM训练其实是一个三步循环：- 用一些数据训练 - 内部测试/运行分类评估…

大语言模型能泄露训练数据，但它们愿意吗？对LLM记忆的倾向性感知评估

从零构建一个复古风格的LLM

提交意见反馈