ModelLens：从海量模型中为特定任务甄选最优解

Hugging Face Daily Papers 2026/05/08 00:00 论文

摘要

ModelLens 是一个统一框架，通过利用公开排行榜数据为未见数据集推荐 AI 模型，从而避免了昂贵的直接评估需求。该框架构建了一个性能感知的潜在空间，以在多样化任务中对候选模型进行排序，并在大规模基准测试中超越了现有基线方法。

开源模型生态系统如今已收录数十万个预训练模型，但为新数据集挑选最佳模型却日益变得不可行：新模型与未经基准测试的数据集持续涌现，使得从业者在两方面均无历史数据可依。现有方法仅能应对这种“真实场景”中的部分问题：AutoML 和迁移能力评估仅能从小型预定义池中选择模型，或需要在目标数据集上进行昂贵的逐模型前向传播，而模型路由则预设了既定的候选池。我们推出了 ModelLens，这是一个面向真实场景的模型推荐统一框架。我们的核心洞察在于，尽管公共排行榜的交互数据分散且存在噪声，但它们共同勾勒出了跨异构评估设置的模型能力隐含图谱，这一信号足够丰富，可直接用于学习。通过在模型 - 数据集 - 指标元组上学习性能感知潜在空间，ModelLens 无需在目标数据集上运行候选模型，即可针对未见模型在未见过数据集上进行排序。在一个涵盖 4.7 万模型和 9.6 千数据集、共 162 万条评估记录的新基准上，ModelLens 的表现超越了那些仅依赖元数据或需在目标数据集上运行每个候选模型的基线方法。其推荐的 Top-K 模型池在多样的问答（QA）基准测试上，进一步将多种代表性路由方法的性能提升了多达 81%。针对近期发布基准的案例研究进一步证实了其在文本和视觉 - 语言任务上的泛化能力。

查看原文

查看缓存全文

缓存时间: 2026/05/11 22:51

论文页面 - ModelLens：从海量模型中为任务寻找最佳选择

来源：https://huggingface.co/papers/2605.07075

摘要

ModelLens 是一个统一框架，通过从公开排行榜数据中学习，在无需昂贵评估的情况下，针对未见数据集对未见模型进行排序，从而在真实场景中推荐模型。

开源模型生态目前包含数十万个预训练模型，但为新数据集挑选最佳模型越来越不可行：新模型和未经基准测试的数据集不断涌现，导致实践者在两方面都缺乏先前的记录。现有方法仅能处理这种真实环境设置（in-the-wild setting）的局部片段：AutoML (https://huggingface.co/papers?q=AutoML) 和可迁移性估计 (https://huggingface.co/papers?q=transferability%20estimation) 从小规模的预定义池中选取模型，或者需要在目标数据集上对每个模型执行昂贵的前向传播；而模型路由 (https://huggingface.co/papers?q=model%20routing) 则预设了给定的候选池。我们提出了 ModelLens，这是一个用于真实环境下模型推荐的统一框架 (https://huggingface.co/papers?q=unified%20framework)(https://huggingface.co/papers?q=model%20recommendation)。我们的核心见解是，公开的排行榜交互数据 (https://huggingface.co/papers?q=leaderboard%20interactions) 虽然分散且充满噪声，但总体上描绘出了跨异构评估设置的模型能力隐含图谱，该信号足够丰富，可直接从中学习。通过学习基于模型 - 数据集 - 指标三元组 (https://huggingface.co/papers?q=model–dataset–metric%20tuples) 的性能感知潜在空间 (https://huggingface.co/papers?q=performance-aware%20latent%20space)，ModelLens 能够在未在目标数据集上运行候选模型的情况下，针对未见数据集对未见模型进行排序。在一个涵盖 47K 个模型和 9.6K 个数据集、包含 1.62M 条评估记录的新基准测试中，ModelLens 的表现优于仅依赖元数据或需要在目标数据集上运行每个候选模型的基线方法。其推荐的 Top-K 池进一步在多种多样的问答基准测试中提升了多种代表性路由方法，提升幅度高达 81%。针对近期发布基准的案例研究进一步证实了其泛化能力，适用于文本和视觉语言任务。

查看 arXiv 页面 (https://arxiv.org/abs/2605.07075) 查看 PDF (https://arxiv.org/pdf/2605.07075) 项目页面 (https://luisrui.github.io/ModelLens/) GitHub (https://github.com/luisrui/ModelLens) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.07075)

在你的智能体中获取此论文：

hf papers read 2605.07075

还没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.07075 即可从此页面建立链接。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.07075 即可从此页面建立链接。

引用此论文的空间 0

没有空间链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.07075 即可从此页面建立链接。

包含此论文的收藏夹 0

没有收藏夹包含此论文

将此论文添加至收藏夹 (https://huggingface.co/new-collection) 即可从此页面建立链接。

ModelLens：从海量模型中为特定任务甄选最优解

论文页面 - ModelLens：从海量模型中为任务寻找最佳选择

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的空间 0

包含此论文的收藏夹 0

相似文章

Lens：重新思考基础文本到图像模型的训练效率

FashionLens：面向多样化时尚图像检索的任务自适应学习

我比较了2026年顶尖AI模型——结果比预期更具细微差别

SkillLens：面向成本高效型大模型智能体的自适应多粒度技能复用

MemLens：大规模视觉-语言模型中多模态长期记忆的基准测试

提交意见反馈