BEAMS: AI在建模与仿真中的基准测试与评估

arXiv cs.AI 论文

摘要

BEAMS倡议提出了一套基准测试集,用于评估建模与仿真中的AI工具,重点关注以人为本和负责任的AI实践。测试显示,基于LLM的引擎存在差异,在定性任务上的表现优于因果推理。

arXiv:2605.28994v1 公告类型:新 摘要:支持现实世界决策的AI工具必须能够构建仿真模型,为其建议提供依据并使其可解释。能够自动化建模实践某些方面的工具必须补充人类专业知识,而非取代之。BEAMS倡议旨在通过建立以人为本的建模与仿真实践基准,引导AI工具向负责任和合乎道德的形式发展。该倡议利用开放的数字和组织基础设施,协作评估建模与仿真中的AI工具。由该倡议托管的开源sd ai项目确保了透明度,并允许广泛共享贡献。指导小组专注于优先确定潜在基准,而技术小组则专注于以自动化测试的形式实施基准。目前已实施并应用于支持定性模型构建、定量模型构建和模型讨论的AI工具的多类评估测试。这些测试包括因果翻译、模型迭代、因果推理、一致性、模型行为解释、建议的模型构建步骤和建议的模型修复。当sd ai项目的引擎与不同的LLM结合时,它们在这些评估上的表现揭示了不同AI工具之间的差异。该倡议实施的评估表明,AI辅助建模工具在讨论和基本定性任务上的表现优于因果推理和定量错误修复。没有单一的LLM在所有引擎类型中占主导地位,这凸显了特定任务的重要性以及速度与准确性之间的权衡。该倡议的持续努力旨在纳入考虑替代视角和以人为本用例的基准,以解决对偏见的担忧。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:11

# BEAMS:人工智能建模与仿真的基准测试与评估
来源:https://arxiv.org/abs/2605.28994
查看PDF(https://arxiv.org/pdf/2605.28994)

> **摘要:** 支持现实世界决策的人工智能工具必须能够构建仿真模型,从而为其建议提供依据并使其可解释。能够实现建模实践部分自动化的工具应补充人类专业知识,而非取代人类。BEAMS倡议旨在通过建立以人为本的建模与仿真实践基准,引导人工智能建模与仿真工具朝着负责任且合乎伦理的方向发展。该倡议利用开放的数字化与组织基础设施,协作评估用于建模与仿真的人工智能工具。倡议托管的开源sd ai项目确保了透明度,并使贡献得以广泛共享。指导小组专注于确定潜在基准的优先级,而技术小组则专注于以自动化测试的形式实施这些基准。目前已针对多个不同的评估类别实施了测试,并将其应用于支持定性模型构建、定量模型构建和模型讨论的人工智能工具。这些测试包括因果翻译、模型迭代、因果推理、一致性、模型行为解释、建议的建模步骤以及建议的模型修复。当sd ai项目的引擎与不同的LLM(大语言模型)结合使用时,它们在评估中的表现揭示了不同人工智能工具之间的差异性。由该倡议实施的评估表明,人工智能辅助建模工具在讨论和基础定性任务方面的表现优于因果推理和定量错误修复。没有单一的大语言模型在所有引擎类型中占据主导地位,这一发现突显了具体任务的重要性以及速度与准确性之间的权衡。该倡议的持续努力旨在纳入能够解决偏见问题的基准,考虑替代视角和以人为中心的使用场景。

## 提交历史

作者:Sara Metcalf [查看邮件](https://arxiv.org/show-email/880a9fb3/2605.28994) **\[v1\]** 2026年5月27日星期三 18:51 UTC(429 KB)

相似文章

AI模型构建者的不稳定指标与基准测试文化

arXiv cs.AI

本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。

AICompanionBench:评测 LLM 作为裁判在 AI 伴侣安全领域的表现

arXiv cs.AI

AICompanionBench 推出了首个公开可用的基准数据集,包含 2,123 条真实 AI 伴侣对话,并按九个安全风险类别进行标注,用于评估 20 个 LLM 作为安全裁判的表现。结果显示,强模型能较好地处理显性有害内容,但在操控等细微风险的识别以及对无害对话的误判问题上仍存在明显不足。