SCICONVBENCH:在计算科学任务制定中基准测试LLMs的多轮澄清能力
摘要
SCICONVBENCH是一个基准测试,用于评估LLMs在跨计算科学领域中对表述不清的科学查询进行多轮澄清的能力。研究发现,即使是顶尖模型也难以进行消歧,并且频繁做出隐性假设。
查看缓存全文
缓存时间: 2026/05/19 22:34
论文页面 - SCICONVBENCH:基于多轮澄清的计算科学任务制定大语言模型基准
来源:https://huggingface.co/papers/2605.18630
摘要
SCICONVBENCH 评估大语言模型通过多轮对话处理不良定义科学查询的能力,重点关注跨计算科学领域澄清模糊请求和解决不一致信息的能力。
大语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models)(LLMs)日益被部署为科学AI助手,越来越多的基准测试评估它们在知识检索、推理、代码生成和工具使用方面的能力。然而,这些评估通常假设科学问题已经是良好定义的,而实际的科学辅助往往始于一个不良定义的用户请求,必须在可靠地进行任何计算、分析或实验之前通过对话进行完善。我们介绍SCICONVBENCH,这是一个用于跨四个计算科学问题领域(流体力学 (https://huggingface.co/papers?q=fluid%20mechanics)、固体力学 (https://huggingface.co/papers?q=solid%20mechanics)、材料科学 (https://huggingface.co/papers?q=materials%20science) 和偏微分方程(PDEs))进行多轮澄清科学任务制定 (https://huggingface.co/papers?q=scientific%20task%20formulation) 的基准测试。SCICONVBENCH 针对两种互补能力:引导缺失信息(消歧 (https://huggingface.co/papers?q=disambiguation))以及检测和纠正包含内部矛盾信息的错误请求(不一致性解决 (https://huggingface.co/papers?q=inconsistency%20resolution))。我们的基准测试将结构化任务本体 (https://huggingface.co/papers?q=task%20ontology) 与基于评分标准的评估 (https://huggingface.co/papers?q=rubric-based%20evaluation) 框架配对,能够系统性地测量LLM在三个维度上的表现:澄清行为、对话基础 (https://huggingface.co/papers?q=conversational%20grounding) 和最终规范忠实度 (https://huggingface.co/papers?q=final-specification%20fidelity)。当前前沿模型在不一致性解决 (https://huggingface.co/papers?q=inconsistency%20resolution) 方面表现相对较好,但即使是最好的模型也只能解决 52.7% 的流体力学 (https://huggingface.co/papers?q=fluid%20mechanics) 中的消歧 (https://huggingface.co/papers?q=disambiguation) 案例。我们进一步发现,前沿LLMs经常做出隐式假设,并执行未与用户对话基础的隐式规范修复 (https://huggingface.co/papers?q=implicit%20specification%20repairs)。SCICONVBENCH 为评估可靠计算科学 (https://huggingface.co/papers?q=computational%20science) 助手所需的上游对话推理奠定了基础。代码和数据可在 https://github.com/csml-rpi/SciConvBench 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2605.18630) 查看 PDF (https://arxiv.org/pdf/2605.18630) GitHub0 (https://github.com/csml-rpi/SciConvBench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18630)
在你的代理中获取这篇论文:
hf papers read 2605\.18630
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2605.18630 以从此页面链接。
引用此论文的数据集0
没有数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.18630 以从此页面链接。
引用此论文的 Space0
没有 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2605.18630 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
大语言模型能否用 TLA+ 建模实际系统?
Specula 团队的研究人员创建了 SysMoBench 基准测试,用于评估大语言模型能否准确建模实际计算系统的 TLA+ 规范,还是仅仅照本宣科地背诵教材内容。该基准测试涵盖四个阶段共 11 个系统,揭示了当前大语言模型在准确建模系统实现与参考论文方面的系统性差距。
LinAlg-Bench:揭示大语言模型数学推理中结构性失败模式的诊断性基准
介绍了LinAlg-Bench,这是一个诊断性基准,用于评估10个前沿大语言模型在矩阵维度上的结构化线性代数计算,揭示了大语言模型的数学失败在结构上受到约束,并在4x4规模下从执行错误过渡到计算放弃。
EnvSimBench:用于评估和改善基于大语言模型的环境模拟的基准
本文介绍了 EnvSimBench,这是一个用于评估大语言模型在智能体训练中模拟环境能力的基准。它指出了当前大语言模型中存在的“状态变化悬崖”问题,并提出了一种约束驱动的流水线以减少幻觉和降低成本。
A2RBench:一种自动化的可形式化验证抽象推理基准生成范式
本文介绍了A2RBench,一个用于为LLM生成可形式化验证的抽象推理基准的自动化流水线,它利用循环一致性来确保唯一解,并揭示当前LLM在3D推理任务上显著落后于人类。
LLMEval-Logic:一个经过求解器验证的、带有对抗性加固的大语言模型逻辑推理中文基准
LLMEval-Logic 是一个新的中文基准,专门评估大语言模型的逻辑推理能力,具有求解器验证的答案和对抗性加固。该基准揭示了当前模型的显著差距,最佳模型在困难项目上仅达到37.5%的准确率。