我们的模型基于哪些模型？审计现代LLM中的隐形依赖关系

Hugging Face Daily Papers 2026/06/10 00:00 论文

llm dependency-graph auditing open-source transparency license-analysis agentic-system

摘要

介绍ModSleuth，一个智能系统，通过分析公开制品递归重建LLM开发中的大规模依赖图，揭示多跳许可证义务和文档不一致性。

现代LLM训练流程越来越依赖其他模型来生成数据、过滤语料、判断输出和指导开发决策。这些依赖是递归的：一个模型可能依赖上游制品，而该制品自身的依赖只在单独的发布和制品中有记录。因此，完整的依赖结构分散在异构的公开制品中，其复杂性和递归深度远远超出人类追踪的能力。我们介绍ModSleuth，一个智能系统，通过基于源证据的公开制品递归重建LLM依赖图。我们发现主要挑战不再是信息提取，而是定义什么构成依赖，以及在不一致的文档中协调制品引用。我们通过形式化来解决这些挑战，区分直接和间接依赖，通过以操作为中心的关系表示异构管道角色，并在名称、版本和仓库之间解析制品标识。将ModSleuth应用于四个公开制品丰富的LLM发布，我们恢复了1,060个源验证的依赖，并构建了现代LLM开发的大规模依赖图。这些图揭示了多跳许可证义务、训练-评估耦合、发布制品与训练时制品之间的差异，以及否则难以发现的文档不一致性。我们发布ModSleuth及生成的依赖图，以支持对现代LLM日益复杂生态系统的透明分析。

查看原文

查看缓存全文

缓存时间: 2026/06/11 21:36

Paper page - Which Models Are Our Models Built On? Auditing Invisible Dependencies in Modern LLMs

来源：https://huggingface.co/papers/2606.12385

摘要

ModSleuth 是一个代理系统，通过分析公开工件并解决文档与工件标识中的不一致性，递归地重建 LLM 开发中的大规模依赖图。

现代 LLM 训练流水线越来越依赖其他模型来生成数据、过滤语料、评判输出以及指导开发决策。这些依赖关系是递归的：一个模型可能依赖某个上游工件，而该工件自身的依赖关系仅在独立的发布版本和工件中记录。因此，完整的依赖结构分散在异构的公开工件中，其复杂性和递归深度远超人类追踪能力。我们提出了 ModSleuth，一个代理系统，它从公开工件中递归重建 LLM 依赖图，并附带基于来源的证据。我们发现，主要挑战不再是信息提取，而是定义什么构成依赖关系，以及在不一致的文档中调和工件引用。我们通过形式化方法应对这些挑战，该方法区分直接和间接依赖，通过以操作为中心的关系表示异构流水线角色，并在名称、版本和仓库间解析工件身份。将 ModSleuth 应用于四个富含公开工件的 LLM 发布版本，我们恢复了 1,060 个经过来源验证的依赖，并构建了现代 LLM 开发的大规模依赖图。这些图揭示了多跳许可义务、训练-评估耦合、发布工件与训练时工件之间的差异，以及否则难以发现的文档不一致性。我们发布了 ModSleuth 及其生成的依赖图，以支持对现代 LLM 背后日益复杂的生态系统进行透明分析。

查看 arXiv 页面 (https://arxiv.org/abs/2606.12385) 查看 PDF (https://arxiv.org/pdf/2606.12385) 项目页面 (https://modsleuth.cal-data-audit.org/) GitHub1 (https://github.com/cal-data-audit/modsleuth) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12385)

在您的代理中获取此论文：

hf papers read 2606.12385

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.12385 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.12385 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.12385 以从此页面链接。

包含此论文的收藏夹0

没有收藏夹包含此论文

将此论文添加到收藏夹以从此页面链接。

我们的模型基于哪些模型？审计现代LLM中的隐形依赖关系

Paper page - Which Models Are Our Models Built On? Auditing Invisible Dependencies in Modern LLMs

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏夹0

相似文章

@sadhikesaven: 如今，大语言模型不再仅依靠人类数据构建。它们依赖其他LLM来生成训练数据、筛选语料…

迈向可安全审计的大模型智能体：一种统一的图表示方法

大语言模型能否用 TLA+ 建模实际系统？

审视LLM中类人行为：模型行为、用户因素和系统提示的多维度分析

形式化方法遇上大语言模型：面向先进AI系统合规性的审计、监控与干预

提交意见反馈