我们的模型基于哪些模型?审计现代LLM中的隐形依赖关系

Hugging Face Daily Papers 论文

摘要

介绍ModSleuth,一个智能系统,通过分析公开制品递归重建LLM开发中的大规模依赖图,揭示多跳许可证义务和文档不一致性。

现代LLM训练流程越来越依赖其他模型来生成数据、过滤语料、判断输出和指导开发决策。这些依赖是递归的:一个模型可能依赖上游制品,而该制品自身的依赖只在单独的发布和制品中有记录。因此,完整的依赖结构分散在异构的公开制品中,其复杂性和递归深度远远超出人类追踪的能力。我们介绍ModSleuth,一个智能系统,通过基于源证据的公开制品递归重建LLM依赖图。我们发现主要挑战不再是信息提取,而是定义什么构成依赖,以及在不一致的文档中协调制品引用。我们通过形式化来解决这些挑战,区分直接和间接依赖,通过以操作为中心的关系表示异构管道角色,并在名称、版本和仓库之间解析制品标识。将ModSleuth应用于四个公开制品丰富的LLM发布,我们恢复了1,060个源验证的依赖,并构建了现代LLM开发的大规模依赖图。这些图揭示了多跳许可证义务、训练-评估耦合、发布制品与训练时制品之间的差异,以及否则难以发现的文档不一致性。我们发布ModSleuth及生成的依赖图,以支持对现代LLM日益复杂生态系统的透明分析。
查看原文
查看缓存全文

缓存时间: 2026/06/11 21:36

Paper page - Which Models Are Our Models Built On? Auditing Invisible Dependencies in Modern LLMs

来源:https://huggingface.co/papers/2606.12385

摘要

ModSleuth 是一个代理系统,通过分析公开工件并解决文档与工件标识中的不一致性,递归地重建 LLM 开发中的大规模依赖图。

现代 LLM 训练流水线越来越依赖其他模型来生成数据、过滤语料、评判输出以及指导开发决策。这些依赖关系是递归的:一个模型可能依赖某个上游工件,而该工件自身的依赖关系仅在独立的发布版本和工件中记录。因此,完整的依赖结构分散在异构的公开工件中,其复杂性和递归深度远超人类追踪能力。我们提出了 ModSleuth,一个代理系统,它从公开工件中递归重建 LLM 依赖图,并附带基于来源的证据。我们发现,主要挑战不再是信息提取,而是定义什么构成依赖关系,以及在不一致的文档中调和工件引用。我们通过形式化方法应对这些挑战,该方法区分直接和间接依赖,通过以操作为中心的关系表示异构流水线角色,并在名称、版本和仓库间解析工件身份。将 ModSleuth 应用于四个富含公开工件的 LLM 发布版本,我们恢复了 1,060 个经过来源验证的依赖,并构建了现代 LLM 开发的大规模依赖图。这些图揭示了多跳许可义务训练-评估耦合、发布工件与训练时工件之间的差异,以及否则难以发现的文档不一致性。我们发布了 ModSleuth 及其生成的依赖图,以支持对现代 LLM 背后日益复杂的生态系统进行透明分析。

查看 arXiv 页面 (https://arxiv.org/abs/2606.12385) 查看 PDF (https://arxiv.org/pdf/2606.12385) 项目页面 (https://modsleuth.cal-data-audit.org/) GitHub1 (https://github.com/cal-data-audit/modsleuth) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12385)

在您的代理中获取此论文:

hf papers read 2606.12385

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.12385 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.12385 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.12385 以从此页面链接。

包含此论文的收藏夹0

没有收藏夹包含此论文

将此论文添加到收藏夹以从此页面链接。

相似文章

迈向可安全审计的大模型智能体:一种统一的图表示方法

arXiv cs.AI

本文提出了 Agent-BOM,一种用于基于大语言模型(LLM)的智能体系统进行安全审计的统一图表示方法。它通过建模静态能力和动态运行时状态,解决了事后审计中的语义鸿沟问题,能够检测记忆投毒和工具误用等复杂的攻击链。

大语言模型能否用 TLA+ 建模实际系统?

Hacker News Top

Specula 团队的研究人员创建了 SysMoBench 基准测试,用于评估大语言模型能否准确建模实际计算系统的 TLA+ 规范,还是仅仅照本宣科地背诵教材内容。该基准测试涵盖四个阶段共 11 个系统,揭示了当前大语言模型在准确建模系统实现与参考论文方面的系统性差距。