@haofeiyu44:我们能否将 Hugging Face Hub——这个拥有海量工件的平台——转变为一个自我进化的发现机器?我们可以……
摘要
介绍 ArtifactLinker,这是一个将 HuggingFace 建模为工件图,并利用 GNN 和 LLM 代理自动发现最先进模型和研究见解的框架。
查看缓存全文
缓存时间: 2026/05/21 15:42
我们能否将 Hugging Face Hub——这个拥有海量工件的巨大平台——转变为一个自我进化的发现机器?
我们可以。隆重推出 ArtifactLinker!
我们正在从根本上重新思考与开源 AI 的交互方式。不再仅仅是一个静态数据库,我们解锁了 HF 作为一个巨大的动态图,其中模型、数据集、论文和代码库相互连接!
论文:https://arxiv.org/pdf/2605.16902 代码:https://github.com/allenai/artifact-linker… 数据集:https://huggingface.co/datasets/lwaekfjlk/artifact-bench…
链接科学工件以自动发现最新技术
来源:https://arxiv.org/html/2605.16902 Haofei Yu¹,² Jiaxuan You¹ Peter Clark² Bodhisattwa Prasad Majumder² Kyle Richardson² ¹伊利诺伊大学厄巴纳-香槟分校 ²艾伦人工智能研究所 [email protected], [email protected]
摘要
科学工件,如模型和数据集,是研究的基础。随着 HuggingFace 等平台的快速增长,研究人员现在可以访问大量工件。然而,一个关键挑战仍然存在:我们如何通过充分利用现有工件,自动发现给定数据集上的最新(SOTA)模型?我们将此任务形式化为自动 SOTA 发现,通过将 HuggingFace 建模为一个工件图,其中节点是模型/数据集,边表示评估。我们提出了 ArtifactLinker,一个两阶段框架:(1)使用图神经网络(GNNs)或图增强的大语言模型(LLMs)对有前途的未观测模型-数据集链接进行排序,以及(2)通过 LLM 代理的编码实验验证排名靠前的链接。我们进一步引入了一个名为 ArtifactBench 的基准,包含 14,053 个工件和 51,337 个关系,以评估两个阶段的性能。结果表明:(1)现有工件之间的图结构对于缺失链接预测是有效的;(2)使用 ArtifactLinker 进行端到端排序和验证有助于发现潜在的 SOTA 结果和研究见解。
1 引言
科学工件是研究的基本构建单元(Heumüller 等,2020;Cooper 等,2022;Johnson 等,2019)。HuggingFace Hub 上的模型和数据集就是这类科学工件的典型例子。从事可重复、高质量研究的研究人员共享、交互并基于这些工件进行构建,发布新版本以展示进展(Marić 等,2023;Lissa 等,2020)。在机器学习社区中,跨不同子领域的研究人员产生了大量工件(Castaño 等,2024;Ai 等,2023;Laufer 等,2025)。这自然引发了一个重要问题:我们如何利用现有工件来实现自动发现?解决这个问题将(1)使我们能够更好地利用多种类型的工件,以及(2)促进基于现有资源的可扩展、自动化的科学发现。我们专注于 HuggingFace 社区作为案例研究,因为它是最庞大、最活跃的开源科学工件中心之一,并提供了一个框架,使实验更易于访问和运行。该平台托管了无数的模型、数据集和库,为探索自动化发现提供了宝贵的基础。
将 HuggingFace 视为一个工件图。我们将 HuggingFace 社区概念化为一个结构化图(Chen 等,2025;Laufer 等,2025)。如图 1 所示,模型、数据集、论文和代码库可以作为节点,而微调、引用和评估关系形成边;具体来说,性能指标(例如,F1 分数)作为量化的边属性。这种视角基于该平台的三个关键特征:(1)它托管了一个庞大且每日扩展的工件集合;(2)它提供了访问这些工件的统一接口,支持与 LLM 代理的无缝集成;(3)它直接在模型卡片元数据中编码了丰富的关联信息。这种元数据相对于学术文献具有明显优势:虽然论文报告了性能数字,但它们通常缺乏与可执行模型和数据集的直接映射。HuggingFace 通过将评估指标与模型工件耦合来解决这个问题,即使对于大量缺乏正式出版物的开源模型,也能确保精确的归属和覆盖范围。与先前将 HuggingFace 主要视为检索源(Silva 等,2025)或 API 中心(Shen 等,2023)的工作不同,我们强调其动态发现的价值,使 HuggingFace Hub 成为一个自主的研究引擎。
参考标题 图 1:工件图结构和 SOTA 发现任务制定。(a) 示例图。展示图结构的可视化,突出其固有的稀疏性和不同工件类型之间大量缺失的链接。(b) 节点统计。不同工件类别中节点数量分布的详细分解。(c) 边统计。按关系类型划分的边数量分布分解。(d) 任务定义。说明将 SOTA 发现任务定义为工件图上链路预测的一种形式。
自动发现的挑战。构建基于 HuggingFace Hub 的自动发现系统面临两个主要挑战:模糊性和可扩展性。(1) 任务模糊性。“自动发现”的概念定义不明确。缺乏正式定义导致缺乏严格的基准,使得评估系统性能或根据真实情况量化成功变得困难(Beel 等,2025)。(2) 可扩展性约束。发现的搜索空间过大。由于可用工件数量庞大,潜在的模型-数据集对数量极其庞大。因此,通过完整的代码验证进行穷举搜索在计算上是不可行的,造成了可扩展性的关键瓶颈(Urbanowicz 等,2022)。
将工件链接作为 SOTA 发现。为解决自动发现的任务模糊性,我们缩小其范围并具体定义为 SOTA 发现——即找到产生前所未有的评估分数的模型-数据集对的任务。为了使这个目标可量化衡量,我们严格将其在工件图内形式化为一个链路预测任务:识别具有优越边属性的缺失链接。通过将自动化研究的抽象目标映射到寻找具有最高度量值的边的具体图操作,我们将一个定义不明确的问题转化为一个可评估的目标。
SOTA 发现的可扩展框架。为了解决组合搜索空间带来的可扩展性挑战,我们提出一个新颖的两阶段框架:(1) 排序和 (2) 验证。由于为每个潜在的模型-数据集对执行完整的编码流程在计算上不可行,这个框架作为一个严格的效率过滤器。排序阶段通过使用基于图的先验来剪除绝大多数不太可能的链接——类似于有经验的研究人员直觉地优先考虑有前途的方向。这显著减少了候选池,使得验证阶段能够将昂贵的计算资源仅集中在最有前途的候选项上。这种分工使得自动发现变得可扩展,同时确保最终结果基于真实、可重现的代码执行。
主要贡献。我们的工作做出了三项关键贡献:(1) 我们构建了 ArtifactBench,一个新颖的具有挑战性的发现基准,为基于 Huggingface 生态系统的 SOTA 机器学习发现建立了具体的预测、排序和验证任务集;(2) 我们提出了 ArtifactLinker,一个两阶段框架,利用“先排序后验证”机制来有效进行 SOTA 发现,并在 ArtifactBench 上建立了新的基线结果;(3) 我们通过对自然语言推理(NLI)任务的端到端发现,展示了 ArtifactLinker 的实际效果,验证了其发现新关系和提供研究见解的能力。总之,这些结果为 ArtifactBench 建立了有意义的基线和探索性发现,并表明该基准为迭代改进自动研究方法提供了丰富的试验场,同时也促进了该领域的进一步研究。
2 相关工作
HuggingFace 平台利用。HuggingFace 已逐渐成为研究自动发现的自然平台。先前的工作主要依赖于对其工件和关系的静态分析来表征机器学习发展的趋势(Chen 等,2025;Laufer 等,2025)。除了作为仓库之外,HuggingFace 被以多种方式概念化:作为知识图(Silva 等,2025)、API 中心(Shen 等,2023)、模型卡片聚合器(Yang 等,2024),甚至作为进化树(Gao and Gao,2023)。其他研究考察了其社区动态(Rahman 等,2025;Castaño 等,2023)。相比之下,我们的工作超越了静态描述和趋势分析,专注于性能预测和基于执行的验证。
加速发现的大规模预测。加速科学发现一直是药物发现(Stokes 等,2020;Serrano 等,2024;Vișan and Neguț,2024;You 等,2022)、材料科学(Xie and Grossman,2018;Butler 等,2018)和分子设计(Segler 等,2018)等领域的重点。在这些场景中,实验验证成本高昂且耗时。相比之下,我们的工作通过利用 HuggingFace 工件的内在链接结构,专注于一类更易处理的自动发现任务。
基于 LLM 的编码代理用于可重复实验。先前的工作探索了基于研究思想生成可执行代码的自由形式发现(Lu 等,2024;Jansen 等,2024;2025),尽管由于此类任务的开放性,评估仍然具有挑战性。其他工作集中于在特定代码库内重现实验(Bogin 等,2024;Starace 等,2025;Kim 等,2025;Seo 等,2025;Siegel 等,2024;Xiang 等,2025;Brag 等,2026),由于此类代码库的复杂性,这具有挑战性。相比之下,我们的任务依赖于重现更具体/更接地气的研究工件集。
3 从 HuggingFace Hub 构建工件图
我们首先正式给出我们开展链接发现的工件图的定义。此外,我们详细说明如何基于 HuggingFace 平台提取工件图。
工件图的定义。我们将工件生态系统建模为一个异构图 G = (V, E),其中 V = Vm ∪ Vd ∪ Vp ∪ Vc 包含四类节点:模型、数据集、论文和代码库。每个节点关联从其文档(如模型卡片、论文摘要和仓库描述)中提取的语义属性。主要的边集,Eeval ⊂ Vm × Vd,表示评估关系:一条边 (m, d) ∈ Eeval 表示模型 m 已在数据集 d 上进行了评估,并获得了观测分数 f*(m, d)。这些边在训练期间提供监督信号,并在推理时提供预测目标。此外,我们包含将工件链接到论文(Epaper)和代码库(Ecode)的辅助溯源边,以及模型-模型微调边(Efinetune ⊂ Vm × Vm)。虽然这些辅助边不携带性能分数,但它们丰富了图结构,并为我们使用的模型(如下所述的 GNN 编码器模型)提供了额外的消息传递路径。
图构建。我们通过一个两步流水线构建一个异构图工件图。(1) 核心工件爬取:我们将收集工作根植于 HuggingFace 生态系统,爬取下载量最大的模型和数据集。我们解析它们的 README 卡片以提取报告的评估分数和模型-数据集链接。(2) 上下文丰富:受这些卡片中引用的指导,我们爬取 arXiv 和 GitHub,用相关论文和代码库扩展图,建立工件-论文和工件-代码库边。为确保图的高质量,我们应用严格的过滤标准:我们将范围限制在流行的、下载量高的工件上,移除缺乏连接的孤立节点,并要求具有非空描述的有效元数据。经过这一细化,最终图包含 |V| = 14,053 个节点和 |E| = 51,337 条边。详细的节点和边类型统计见图 1。
元数据处理。鉴于工件图丰富的关联结构,并遵循发现领域的其他工作(Xie and Grossman,2018;Chandak 等,2023;Miret and Krishnan,2024),链路预测自然地出现两种方法:直接在图拓扑上学习的 GNN,以及用序列化邻域信息作为上下文的 LLM。两者都需要有意义的节点表示。为了初始化 GNN 嵌
相似文章
@allen_ai: 大多数模型仅对一部分现有基准进行了评估。ArtifactLinker,我们的新系统,预测哪些…
Allen AI 推出了 ArtifactLinker,该系统可预测哪些AI模型能在 HuggingFace 的基准测试中取得最先进的结果,并通过运行验证。
@socialwithaayan: Hugging Face 刚刚开源了每位研究者梦寐以求的 ML Intern 不再需要花费数天阅读论文和编写训练脚本…
Hugging Face 开源了 ml-intern,这是一个自主代理,能够阅读 ML 论文、发现数据集、训练模型、调试失败、并将生产就绪的模型上传到 Hub,自动化整个后训练工作流程。
@vanstriendaniel: Hugging Face 是涵盖所有领域(包括生物医学)的 AI 与 ML 的家园!@NIH 刚刚将 @huggingface Hu…
NIH 已将 Hugging Face Hub 添加到其官方通用存储库列表中用于数据共享,允许 NIH 资助的研究人员在数据共享计划中使用它。
@ClementDelangue:Hugging Face 正成为代理使用和构建 AI 的平台,现在它们可以调用 100 万个 HF Spaces,完成最新专用模型所能做的一切……
Hugging Face 现允许 AI 代理调用 100 万个 Spaces,把 Hub 变成可编程平台,代理可随手调用任何专用模型或应用。
@RoundtableSpace:Hugging Face 用智能体把整个后训练团队自动化了。它会读论文、跑 GPU 实验、反复迭代……
Hugging Face 用自主智能体取代后训练团队,自动读论文、跑 GPU 实验并优化模型,不到 10 小时就在基准测试上提升 22 分,HealthBench 成绩比 Codex 高 60%。