SCICONVBENCH：在计算科学任务制定中基准测试LLMs的多轮澄清能力

Hugging Face Daily Papers 2026/05/18 00:00 论文

摘要

SCICONVBENCH是一个基准测试，用于评估LLMs在跨计算科学领域中对表述不清的科学查询进行多轮澄清的能力。研究发现，即使是顶尖模型也难以进行消歧，并且频繁做出隐性假设。

大型语言模型(LLMs)越来越多地被部署为科学AI助手，并且越来越多的基准测试评估它们在知识检索、推理、代码生成和工具使用等方面的能力。然而，这些评估通常假设科学问题已经是良好定义的，而实际的科学辅助通常始于一个表述不清的用户请求，必须通过对话进行细化，然后才能可靠地进行任何计算、分析或实验。我们提出了SCICONVBENCH，这是一个用于跨四个计算科学问题领域——流体力学、固体力学、材料科学和偏微分方程(PDEs)——的科学任务制定中多轮澄清的基准测试。SCICONVBENCH针对两个互补的能力：获取缺失信息（消歧）以及检测和纠正包含内部矛盾信息的错误请求（不一致性解决）。我们的基准测试将结构化的任务本体与基于量规的评估框架相结合，从而能够在三个维度上系统地测量LLM的性能：澄清行为、对话基础和最终规范的忠实度。当前的前沿模型在不一致性解决方面表现相对较好，但即使是最好的模型也只能解决流体力学中52.7%的消歧案例。我们进一步发现，前沿LLMs经常做出隐性假设，并进行未与用户对话基础建立的隐式规范修复。SCICONVBENCH为评估可靠的计算科学助手所需的上游对话推理奠定了基础。代码和数据可在https://github.com/csml-rpi/SciConvBench获取。

查看原文

查看缓存全文

缓存时间: 2026/05/19 22:34

论文页面 - SCICONVBENCH：基于多轮澄清的计算科学任务制定大语言模型基准

来源：https://huggingface.co/papers/2605.18630

摘要

SCICONVBENCH 评估大语言模型通过多轮对话处理不良定义科学查询的能力，重点关注跨计算科学领域澄清模糊请求和解决不一致信息的能力。

大语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models)（LLMs）日益被部署为科学AI助手，越来越多的基准测试评估它们在知识检索、推理、代码生成和工具使用方面的能力。然而，这些评估通常假设科学问题已经是良好定义的，而实际的科学辅助往往始于一个不良定义的用户请求，必须在可靠地进行任何计算、分析或实验之前通过对话进行完善。我们介绍SCICONVBENCH，这是一个用于跨四个计算科学问题领域（流体力学 (https://huggingface.co/papers?q=fluid%20mechanics)、固体力学 (https://huggingface.co/papers?q=solid%20mechanics)、材料科学 (https://huggingface.co/papers?q=materials%20science) 和偏微分方程（PDEs））进行多轮澄清科学任务制定 (https://huggingface.co/papers?q=scientific%20task%20formulation) 的基准测试。SCICONVBENCH 针对两种互补能力：引导缺失信息（消歧 (https://huggingface.co/papers?q=disambiguation)）以及检测和纠正包含内部矛盾信息的错误请求（不一致性解决 (https://huggingface.co/papers?q=inconsistency%20resolution)）。我们的基准测试将结构化任务本体 (https://huggingface.co/papers?q=task%20ontology) 与基于评分标准的评估 (https://huggingface.co/papers?q=rubric-based%20evaluation) 框架配对，能够系统性地测量LLM在三个维度上的表现：澄清行为、对话基础 (https://huggingface.co/papers?q=conversational%20grounding) 和最终规范忠实度 (https://huggingface.co/papers?q=final-specification%20fidelity)。当前前沿模型在不一致性解决 (https://huggingface.co/papers?q=inconsistency%20resolution) 方面表现相对较好，但即使是最好的模型也只能解决 52.7% 的流体力学 (https://huggingface.co/papers?q=fluid%20mechanics) 中的消歧 (https://huggingface.co/papers?q=disambiguation) 案例。我们进一步发现，前沿LLMs经常做出隐式假设，并执行未与用户对话基础的隐式规范修复 (https://huggingface.co/papers?q=implicit%20specification%20repairs)。SCICONVBENCH 为评估可靠计算科学 (https://huggingface.co/papers?q=computational%20science) 助手所需的上游对话推理奠定了基础。代码和数据可在 https://github.com/csml-rpi/SciConvBench 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2605.18630) 查看 PDF (https://arxiv.org/pdf/2605.18630) GitHub0 (https://github.com/csml-rpi/SciConvBench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18630)

在你的代理中获取这篇论文：

hf papers read 2605\.18630

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.18630 以从此页面链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.18630 以从此页面链接。

引用此论文的 Space0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.18630 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

SCICONVBENCH：在计算科学任务制定中基准测试LLMs的多轮澄清能力

论文页面 - SCICONVBENCH：基于多轮澄清的计算科学任务制定大语言模型基准

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

LLMs是否已准备好进行科学发现？面向AI科学家的能力导向基准

SciR：用于LLMs科学推理的可控基准

DLawBench：通过多轮法律咨询评估大语言模型

大语言模型能否用 TLA+ 建模实际系统？

LinAlg-Bench：揭示大语言模型数学推理中结构性失败模式的诊断性基准

提交意见反馈