BEAMS: AI在建模与仿真中的基准测试与评估

arXiv cs.AI 2026/05/29 04:00 论文

benchmarking evaluation ai-simulation modeling llm causal-reasoning human-centered

摘要

BEAMS倡议提出了一套基准测试集，用于评估建模与仿真中的AI工具，重点关注以人为本和负责任的AI实践。测试显示，基于LLM的引擎存在差异，在定性任务上的表现优于因果推理。

arXiv:2605.28994v1 公告类型：新摘要：支持现实世界决策的AI工具必须能够构建仿真模型，为其建议提供依据并使其可解释。能够自动化建模实践某些方面的工具必须补充人类专业知识，而非取代之。BEAMS倡议旨在通过建立以人为本的建模与仿真实践基准，引导AI工具向负责任和合乎道德的形式发展。该倡议利用开放的数字和组织基础设施，协作评估建模与仿真中的AI工具。由该倡议托管的开源sd ai项目确保了透明度，并允许广泛共享贡献。指导小组专注于优先确定潜在基准，而技术小组则专注于以自动化测试的形式实施基准。目前已实施并应用于支持定性模型构建、定量模型构建和模型讨论的AI工具的多类评估测试。这些测试包括因果翻译、模型迭代、因果推理、一致性、模型行为解释、建议的模型构建步骤和建议的模型修复。当sd ai项目的引擎与不同的LLM结合时，它们在这些评估上的表现揭示了不同AI工具之间的差异。该倡议实施的评估表明，AI辅助建模工具在讨论和基本定性任务上的表现优于因果推理和定量错误修复。没有单一的LLM在所有引擎类型中占主导地位，这凸显了特定任务的重要性以及速度与准确性之间的权衡。该倡议的持续努力旨在纳入考虑替代视角和以人为本用例的基准，以解决对偏见的担忧。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:11

# BEAMS：人工智能建模与仿真的基准测试与评估
来源：https://arxiv.org/abs/2605.28994
查看PDF（https://arxiv.org/pdf/2605.28994）

> **摘要：** 支持现实世界决策的人工智能工具必须能够构建仿真模型，从而为其建议提供依据并使其可解释。能够实现建模实践部分自动化的工具应补充人类专业知识，而非取代人类。BEAMS倡议旨在通过建立以人为本的建模与仿真实践基准，引导人工智能建模与仿真工具朝着负责任且合乎伦理的方向发展。该倡议利用开放的数字化与组织基础设施，协作评估用于建模与仿真的人工智能工具。倡议托管的开源sd ai项目确保了透明度，并使贡献得以广泛共享。指导小组专注于确定潜在基准的优先级，而技术小组则专注于以自动化测试的形式实施这些基准。目前已针对多个不同的评估类别实施了测试，并将其应用于支持定性模型构建、定量模型构建和模型讨论的人工智能工具。这些测试包括因果翻译、模型迭代、因果推理、一致性、模型行为解释、建议的建模步骤以及建议的模型修复。当sd ai项目的引擎与不同的LLM（大语言模型）结合使用时，它们在评估中的表现揭示了不同人工智能工具之间的差异性。由该倡议实施的评估表明，人工智能辅助建模工具在讨论和基础定性任务方面的表现优于因果推理和定量错误修复。没有单一的大语言模型在所有引擎类型中占据主导地位，这一发现突显了具体任务的重要性以及速度与准确性之间的权衡。该倡议的持续努力旨在纳入能够解决偏见问题的基准，考虑替代视角和以人为中心的使用场景。

## 提交历史

作者：Sara Metcalf [查看邮件](https://arxiv.org/show-email/880a9fb3/2605.28994) **\[v1\]** 2026年5月27日星期三 18:51 UTC（429 KB）

BEAMS: AI在建模与仿真中的基准测试与评估

相似文章

EngiAI：面向LLM驱动工程设计的多智能体框架与基准套件

MLS-Bench：对 AI 系统在构建更优 AI 方面能力的全面与严格评估

好的基准

AI模型构建者的不稳定指标与基准测试文化

衡量关键指标：医疗保健中生成式、多模态及智能体AI的基准测试

提交意见反馈