标签
Science Superpowers是一种开源的、面向AI研究代理的计算科学方法论,强制预注册和可重复工作流,以防止p-hacking和HARKing。
SCICONVBENCH是一个基准测试,用于评估LLMs在跨计算科学领域中对表述不清的科学查询进行多轮澄清的能力。研究发现,即使是顶尖模型也难以进行消歧,并且频繁做出隐性假设。