Surface Evolver Bench: 要求大型语言模型以自定义数据格式编写复杂物理模拟的基准测试
摘要
介绍Surface Evolver Bench,这是一个评估大型语言模型以自定义数据格式编写复杂物理模拟的基准测试。
暂无内容
相似文章
EnvSimBench:用于评估和改善基于大语言模型的环境模拟的基准
本文介绍了 EnvSimBench,这是一个用于评估大语言模型在智能体训练中模拟环境能力的基准。它指出了当前大语言模型中存在的“状态变化悬崖”问题,并提出了一种约束驱动的流水线以减少幻觉和降低成本。
BenchEvolver: 基于解决方案进化的前沿任务合成
BenchEvolver 是一个进化框架,能够自动从现有编程问题中生成更难的题目,创建保持有效性和多样性的挑战性基准,同时支持模型自我改进和提升训练性能。
PRL-Bench:评估大语言模型在尖端物理研究中能力的全面基准
PRL-Bench是一个全面基准,用于评估大语言模型在尖端物理研究中的能力,基于从五个物理子领域精选的100篇《物理评论快报》论文构建。该基准揭示了当前大语言模型性能的重大差距(最佳得分低于50%),旨在测试端到端研究流程、复杂推理和自主探索。
BilliardPhys-Bench: 多模态大语言模型的物理推理与视觉动态基准测试
BilliardPhys-Bench 是一个新的基准测试,通过合成台球场景来评估多模态大语言模型的物理推理能力,要求预测碰撞和最终球的位置。论文发现,当前模型在较长的模拟中表现不佳,并表现出一种“静态偏差”——在不确定时预测无交互。
LinAlg-Bench:揭示大语言模型数学推理中结构性失败模式的诊断性基准
介绍了LinAlg-Bench,这是一个诊断性基准,用于评估10个前沿大语言模型在矩阵维度上的结构化线性代数计算,揭示了大语言模型的数学失败在结构上受到约束,并在4x4规模下从执行错误过渡到计算放弃。