ModelLens:从海量模型中为特定任务甄选最优解
摘要
ModelLens 是一个统一框架,通过利用公开排行榜数据为未见数据集推荐 AI 模型,从而避免了昂贵的直接评估需求。该框架构建了一个性能感知的潜在空间,以在多样化任务中对候选模型进行排序,并在大规模基准测试中超越了现有基线方法。
查看缓存全文
缓存时间: 2026/05/11 22:51
论文页面 - ModelLens:从海量模型中为任务寻找最佳选择
来源:https://huggingface.co/papers/2605.07075
摘要
ModelLens 是一个统一框架,通过从公开排行榜数据中学习,在无需昂贵评估的情况下,针对未见数据集对未见模型进行排序,从而在真实场景中推荐模型。
开源模型生态目前包含数十万个预训练模型,但为新数据集挑选最佳模型越来越不可行:新模型和未经基准测试的数据集不断涌现,导致实践者在两方面都缺乏先前的记录。现有方法仅能处理这种真实环境设置(in-the-wild setting)的局部片段:AutoML (https://huggingface.co/papers?q=AutoML) 和可迁移性估计 (https://huggingface.co/papers?q=transferability%20estimation) 从小规模的预定义池中选取模型,或者需要在目标数据集上对每个模型执行昂贵的前向传播;而模型路由 (https://huggingface.co/papers?q=model%20routing) 则预设了给定的候选池。我们提出了 ModelLens,这是一个用于真实环境下模型推荐的统一框架 (https://huggingface.co/papers?q=unified%20framework)(https://huggingface.co/papers?q=model%20recommendation)。我们的核心见解是,公开的排行榜交互数据 (https://huggingface.co/papers?q=leaderboard%20interactions) 虽然分散且充满噪声,但总体上描绘出了跨异构评估设置的模型能力隐含图谱,该信号足够丰富,可直接从中学习。通过学习基于模型 - 数据集 - 指标三元组 (https://huggingface.co/papers?q=model–dataset–metric%20tuples) 的性能感知潜在空间 (https://huggingface.co/papers?q=performance-aware%20latent%20space),ModelLens 能够在未在目标数据集上运行候选模型的情况下,针对未见数据集对未见模型进行排序。在一个涵盖 47K 个模型和 9.6K 个数据集、包含 1.62M 条评估记录的新基准测试中,ModelLens 的表现优于仅依赖元数据或需要在目标数据集上运行每个候选模型的基线方法。其推荐的 Top-K 池进一步在多种多样的问答基准测试中提升了多种代表性路由方法,提升幅度高达 81%。针对近期发布基准的案例研究进一步证实了其泛化能力,适用于文本和视觉语言任务。
查看 arXiv 页面 (https://arxiv.org/abs/2605.07075) 查看 PDF (https://arxiv.org/pdf/2605.07075) 项目页面 (https://luisrui.github.io/ModelLens/) GitHub (https://github.com/luisrui/ModelLens) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.07075)
在你的智能体中获取此论文:
hf papers read 2605.07075
还没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2605.07075 即可从此页面建立链接。
引用此论文的数据集 0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.07075 即可从此页面建立链接。
引用此论文的空间 0
没有空间链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2605.07075 即可从此页面建立链接。
包含此论文的收藏夹 0
没有收藏夹包含此论文
将此论文添加至收藏夹 (https://huggingface.co/new-collection) 即可从此页面建立链接。
相似文章
Lens:重新思考基础文本到图像模型的训练效率
Lens是微软推出的一款紧凑型38亿参数文本到图像模型,在训练计算量显著降低的同时,通过密集描述、多分辨率批处理和高效架构,达到了与更大模型竞争甚至超越的性能。
FashionLens:面向多样化时尚图像检索的任务自适应学习
FashionLens提出了一种统一的多模态大语言模型时尚图像检索框架,采用自适应校准与采样策略,在多种检索场景下实现了最先进的性能。
我比较了2026年顶尖AI模型——结果比预期更具细微差别
对2026年前沿AI模型的全面比较发现没有单一的最佳模型;最佳选择取决于用例、约束条件和运营需求。
SkillLens:面向成本高效型大模型智能体的自适应多粒度技能复用
本文提出了 SkillLens,这是一种用于大模型智能体自适应多粒度技能复用的分层框架,在基准任务中展示了更高的准确性和成本效益。
MemLens:大规模视觉-语言模型中多模态长期记忆的基准测试
MemLens是一个新的基准测试,通过多轮对话评估大规模视觉-语言模型的记忆能力。它比较了长上下文和记忆增强方法,揭示了二者的局限性,并推动了混合架构的发展。