通过结构化表格发现实现多样化模型探索
摘要
介绍StructuredSemanticSearch,一个结合语义相似性与结构化表格发现的模型搜索框架,以提高推荐模型的多样性和覆盖率,在包含597个查询的基准上进行评估。
查看缓存全文
缓存时间: 2026/05/22 02:31
论文页面 - 通过结构化表格发现实现多样化模型搜索
来源:https://huggingface.co/papers/2605.22766
摘要
一种结合语义检索与结构化表格检索的模型搜索系统,旨在提升推荐模型的多样性与覆盖率。
模型卡片通过文本描述与结构化工件(包括性能、配置和数据集表格)相结合的方式描述模型行为。现有的模型搜索系统主要依赖基于文本的语义相似度,这往往产生同质化的结果集,限制了替代方案的探索。我们认为模型搜索本质上是比较性的:用户需要既与任务对齐又在可量化维度上有所区分的模型。我们假设这种平衡需要基于精炼、高质量的证据(而非冗长的描述)进行检索,并且这类证据大多集中在结构化表格中。我们提出了StructuredSemanticSearch,一个基于ModelTables基准的表格驱动型模型搜索框架。给定查询,StructuredSemanticSearch将一个用于任务对齐的语义基线,与一个结构感知的流水线相结合,后者利用表格发现算子(如可并性、可连接性和关键词搜索)发现与查询相关的模型卡片表格。检索到的表格在受控的top-k预算下映射回模型卡片,从而实现基于文本与基于表格的检索之间的公平比较。除检索外,StructuredSemanticSearch还将表格集成适配到模型表格领域,通过方向感知集成,对部分重叠且有时转置的证据表格生成紧凑的集成视图。为进行评估,我们引入了一种基于nugget、可审计的协议:从模型卡片中提取紧凑的证据项,将查询匹配到特定条件或意图的nugget,并衡量检索到的模型卡片候选集中的证据覆盖度和多样性。该协议还为动态模型湖中的近似、基于证据的标注提供了一条可扩展的路径。在597条模型推荐查询上的实验表明,结构感知流水线在nugget覆盖度上优于语义基线
查看arXiv页面 (https://arxiv.org/abs/2605.22766)查看PDF (https://arxiv.org/pdf/2605.22766)GitHub0 (https://github.com/RJMillerLab/ModelSearch)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22766)
在你的代理中获取此论文:
hf papers read 2605.22766
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2605.22766以在此页面链接它。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2605.22766以在此页面链接它。
引用此论文的Spaces0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2605.22766以在此页面链接它。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以在此页面链接它。
相似文章
@VikParuchuri:去年有人给我发了这个难以辨认的肥皂标签。我刚用我们的新模型试了试——现在你也能读懂那些...
Vik Paruchuri 分享称,新模型现在能够读取原本无法辨认的 Dr. Bronner's 肥皂标签,展现了 OCR 能力的提升。
@steijnpelle:今天,我们推出了Lassie,并获得了由a16z领投的4700万美元融资。我们正在构建能够运营小型企业的人工智能,从……开始
Lassie是一款能够运营小型企业的人工智能,从医生诊所起步,现已获得由a16z领投的4700万美元融资,并已获得700多家诊所的信任。
BM25 + 向量搜索 + RRF 真的值得吗?
本文质疑将 BM25 与向量搜索结合 RRF 是否能提高智能体记忆检索的命中率,并暗示仅使用 BM25 可能就足够了。
Meta追赶AI的内幕
一份关于Meta在AI领域追赶努力的详细报告,包括招募Alexandr Wang和发布Muse Spark模型,对其进展评价不一。
AI隐形眼镜
本文介绍了AI驱动隐形眼镜的开发进展,这种眼镜将增强现实、健康监测和AI整合到一副外观普通的隐形眼镜中。尽管面临重大挑战,XPANCEO和Mojo Vision等公司正在推动这一技术向前发展。