Surface Evolver Bench: 要求大型语言模型以自定义数据格式编写复杂物理模拟的基准测试

Reddit r/LocalLLaMA 工具

摘要

介绍Surface Evolver Bench,这是一个评估大型语言模型以自定义数据格式编写复杂物理模拟的基准测试。

暂无内容
查看原文

相似文章

PRL-Bench:评估大语言模型在尖端物理研究中能力的全面基准

Hugging Face Daily Papers

PRL-Bench是一个全面基准,用于评估大语言模型在尖端物理研究中的能力,基于从五个物理子领域精选的100篇《物理评论快报》论文构建。该基准揭示了当前大语言模型性能的重大差距(最佳得分低于50%),旨在测试端到端研究流程、复杂推理和自主探索。