人工智能如何找到我的模型?考虑数据格式、嵌入和检索策略的模型发现实验研究
摘要
本文介绍了一项关于使用人工智能通过自然语言查询查找仿真模型的实验研究,评估了数据表示、嵌入模型和检索策略,发现开源嵌入和重排序方法显著提高了性能。
arXiv:2606.30846v1 公告类型: 新
摘要: 发现可重用的仿真模型仍然是建模与仿真(M&S)中的一个基本挑战。当许多模型共存时,识别与给定建模意图相匹配的模型仍然困难。人工智能(AI)的最新进展,特别是基于检索的方法,为在这一语义层操作提供了一条有希望的途径。在本文中,我们介绍了一项实验研究,调查数据表示、基于Transformer的嵌入模型和检索策略对使用自然语言查询发现仿真模型的影响。我们使用标准信息检索指标(包括recall@5和nDCG@5)评估了多种查询类型的性能。结果表明,数据表示很重要,开源嵌入模型可以达到高性能,并且重排序方法很重要,尤其是在查询复杂度增加时。这项工作为AI驱动的模型发现提供了基准,并讨论了其在推动AI驱动的可组合性和互操作性方面的作用。
查看缓存全文
缓存时间: 2026/07/01 05:36
# AI如何找到我的模型?考虑数据格式、嵌入与检索策略的模型发现实验研究 来源:https://arxiv.org/abs/2606.30846 查看PDF (https://arxiv.org/pdf/2606.30846) > 摘要:发现可复用的仿真模型仍是建模与仿真(M&S)领域的一项根本性挑战。当众多模型共存时,识别出与给定建模意图相符的模型仍然困难。人工智能(AI)的最新进展,特别是基于检索的方法,为在这一语义层面进行操作提供了一条有希望的途径。本文通过实验研究了数据表示、基于Transformer的嵌入模型以及检索策略对使用自然语言查询发现仿真模型的影响。我们使用标准信息检索指标(包括recall@5和nDCG@5)评估了多种查询类型的性能。结果表明:数据表示很重要,开源嵌入模型能够实现高性能,并且重排序方法非常关键,尤其是在查询复杂度增加时。本工作为AI驱动的模型发现提供了基线,并讨论了其在推动AI驱动的组合性与互操作性方面的作用。 ## 提交历史 来自:Jhon G. Botello [查看邮件 (https://arxiv.org/show-email/d256b68b/2606.30846)] **[v1]** 2026年6月29日 星期一 19:23:32 UTC (1,078 KB)
相似文章
BEAMS: AI在建模与仿真中的基准测试与评估
BEAMS倡议提出了一套基准测试集,用于评估建模与仿真中的AI工具,重点关注以人为本和负责任的AI实践。测试显示,基于LLM的引擎存在差异,在定性任务上的表现优于因果推理。
ModelLens:从海量模型中为特定任务甄选最优解
ModelLens 是一个统一框架,通过利用公开排行榜数据为未见数据集推荐 AI 模型,从而避免了昂贵的直接评估需求。该框架构建了一个性能感知的潜在空间,以在多样化任务中对候选模型进行排序,并在大规模基准测试中超越了现有基线方法。
@dbreunig: 推理模型擅长理解细微差别和自然语言。但这种细微之处尚未渗透到检索系统…
一条推文强调,尽管推理模型在理解细微差别和自然语言方面表现出色,但这种能力尚未传导到检索系统,指出了AI系统的一个关键瓶颈。
Ketch - 本地模型的最佳搜索工具
Ketch 是一款用于查找和管理本地AI模型的搜索工具。
RealityTest:人们如何探询AI身份及模型是否披露身份
本文介绍了RealityTest,这是一个多模态、多语言基准测试,用于评估AI系统在被用户探询时是否会披露其身份。该基准基于来自49个国家的真实人类查询数据。研究发现,只有31%的人会直接询问身份,并且人类提出的问题比合成问题更加多样化。结果表明,问题的措辞和对话背景对披露行为的影响比具体模型更大。