@sadhikesaven: 如今,大语言模型不再仅依靠人类数据构建。它们依赖其他LLM来生成训练数据、筛选语料…
摘要
ModSleuth 是一个新工具,用于追踪现代大语言模型的依赖关系,揭示出像 OLMo 3 和 Nemotron 3 这样的模型依赖于数百个其他模型和数据集,凸显了从仅人类数据到AI生成的训练数据的转变。
查看缓存全文
缓存时间: 2026/06/12 02:51
如今,LLM 不再仅依靠人类数据来构建。它们依赖其他 LLM 来生成训练数据、筛选语料、评估输出、提供奖励,并指导开发决策。那么,一个现代 LLM 建立在多少模型和数据集之上?
• OLMo 3 → 89 个模型依赖 + 183 个数据集依赖
• Nemotron 3 → 273 个模型依赖 + 560 个数据集依赖
我们是如何发现的?我们构建了 ModSleuth。
模型之间的相互影响如今变得如此多样、复杂且递归,远远超出了人类追踪的能力。
因此,我们构建了 ModSleuth:一个能够自动重构模型依赖图的智能系统。
它读取论文、模型卡片、数据集卡片、代码、配置文件以及上游产物,然后将模型的“族谱”拼凑起来。
有些依赖链的深度可达 8 跳。
一个令人惊讶的发现:
借助 Claude Code(ModSleuth 就是基于它构建的),信息提取不再是主要瓶颈。
难点在于语义和表征方面:
• 什么才算是依赖?
• 不同名称何时指代同一个产物?
• 如何协调版本、模型家族、开发阶段和仓库之间的关系?
挑战不再是如何找到信息——而是如何理解它。
查阅论文,了解我们如何应对这些问题。
在 4 次开源发布中,ModSleuth 恢复了 1,060 个经源验证的依赖,链深度可达 8 跳。该图还揭示了一些难以手动发现的结论:
• 许可证相关的多跳路径
• 训练-评估耦合
• 论文、卡片与代码之间的不一致
演示:https://modsleuth.cal-data-audit.org
代码:https://github.com/cal-data-audit/modsleuth…
论文:https://arxiv.org/abs/2606.12385
感谢杰出的合作者 @CoderBak @sewon__min !!
相似文章
我们的模型基于哪些模型?审计现代LLM中的隐形依赖关系
介绍ModSleuth,一个智能系统,通过分析公开制品递归重建LLM开发中的大规模依赖图,揭示多跳许可证义务和文档不一致性。
我们一直在分析人们如何在法律与合规任务中使用LLM(GDPR、AI法案等)。
对LLM在法律与合规任务中使用的分析显示,模型常常生成自信但无法验证的引用,引发了对AI输出可靠法律依据的质疑。
@neural_avb: 如果你仔细想想,2026年的LLM训练其实是一个三步循环:- 用一些数据训练 - 内部测试/运行分类评估…
这条推文概述了2026年LLM训练的三步循环:用数据训练、运行评估、为表现不佳的任务添加合成数据。它强调了通过开源模型和廉价API进行合法蒸馏的易得性,并指出仅凭推理轨迹训练就能获得高分。
大语言模型能泄露训练数据,但它们愿意吗?对LLM记忆的倾向性感知评估
PropMe是一个倾向性感知框架,用于评估LLM的记忆,区分强制复现能力和自然倾向,使用SimpleTrace在开放模型和数据集上进行确定性归因。
从零构建一个复古风格的LLM
作者记录了从零构建一个340M参数LLM的过程,该模型仅使用1900年以前的文本进行训练,包括自定义数据集、训练脚本,并开源了模型和代码。