SCICONVBENCH:在计算科学任务制定中基准测试LLMs的多轮澄清能力

Hugging Face Daily Papers 论文

摘要

SCICONVBENCH是一个基准测试,用于评估LLMs在跨计算科学领域中对表述不清的科学查询进行多轮澄清的能力。研究发现,即使是顶尖模型也难以进行消歧,并且频繁做出隐性假设。

大型语言模型(LLMs)越来越多地被部署为科学AI助手,并且越来越多的基准测试评估它们在知识检索、推理、代码生成和工具使用等方面的能力。然而,这些评估通常假设科学问题已经是良好定义的,而实际的科学辅助通常始于一个表述不清的用户请求,必须通过对话进行细化,然后才能可靠地进行任何计算、分析或实验。我们提出了SCICONVBENCH,这是一个用于跨四个计算科学问题领域——流体力学、固体力学、材料科学和偏微分方程(PDEs)——的科学任务制定中多轮澄清的基准测试。SCICONVBENCH针对两个互补的能力:获取缺失信息(消歧)以及检测和纠正包含内部矛盾信息的错误请求(不一致性解决)。我们的基准测试将结构化的任务本体与基于量规的评估框架相结合,从而能够在三个维度上系统地测量LLM的性能:澄清行为、对话基础和最终规范的忠实度。当前的前沿模型在不一致性解决方面表现相对较好,但即使是最好的模型也只能解决流体力学中52.7%的消歧案例。我们进一步发现,前沿LLMs经常做出隐性假设,并进行未与用户对话基础建立的隐式规范修复。SCICONVBENCH为评估可靠的计算科学助手所需的上游对话推理奠定了基础。代码和数据可在https://github.com/csml-rpi/SciConvBench获取。
查看原文
查看缓存全文

缓存时间: 2026/05/19 22:34

论文页面 - SCICONVBENCH:基于多轮澄清的计算科学任务制定大语言模型基准

来源:https://huggingface.co/papers/2605.18630

摘要

SCICONVBENCH 评估大语言模型通过多轮对话处理不良定义科学查询的能力,重点关注跨计算科学领域澄清模糊请求和解决不一致信息的能力。

大语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models)(LLMs)日益被部署为科学AI助手,越来越多的基准测试评估它们在知识检索、推理、代码生成和工具使用方面的能力。然而,这些评估通常假设科学问题已经是良好定义的,而实际的科学辅助往往始于一个不良定义的用户请求,必须在可靠地进行任何计算、分析或实验之前通过对话进行完善。我们介绍SCICONVBENCH,这是一个用于跨四个计算科学问题领域(流体力学 (https://huggingface.co/papers?q=fluid%20mechanics)、固体力学 (https://huggingface.co/papers?q=solid%20mechanics)、材料科学 (https://huggingface.co/papers?q=materials%20science) 和偏微分方程(PDEs))进行多轮澄清科学任务制定 (https://huggingface.co/papers?q=scientific%20task%20formulation) 的基准测试。SCICONVBENCH 针对两种互补能力:引导缺失信息(消歧 (https://huggingface.co/papers?q=disambiguation))以及检测和纠正包含内部矛盾信息的错误请求(不一致性解决 (https://huggingface.co/papers?q=inconsistency%20resolution))。我们的基准测试将结构化任务本体 (https://huggingface.co/papers?q=task%20ontology) 与基于评分标准的评估 (https://huggingface.co/papers?q=rubric-based%20evaluation) 框架配对,能够系统性地测量LLM在三个维度上的表现:澄清行为、对话基础 (https://huggingface.co/papers?q=conversational%20grounding) 和最终规范忠实度 (https://huggingface.co/papers?q=final-specification%20fidelity)。当前前沿模型在不一致性解决 (https://huggingface.co/papers?q=inconsistency%20resolution) 方面表现相对较好,但即使是最好的模型也只能解决 52.7% 的流体力学 (https://huggingface.co/papers?q=fluid%20mechanics) 中的消歧 (https://huggingface.co/papers?q=disambiguation) 案例。我们进一步发现,前沿LLMs经常做出隐式假设,并执行未与用户对话基础的隐式规范修复 (https://huggingface.co/papers?q=implicit%20specification%20repairs)。SCICONVBENCH 为评估可靠计算科学 (https://huggingface.co/papers?q=computational%20science) 助手所需的上游对话推理奠定了基础。代码和数据可在 https://github.com/csml-rpi/SciConvBench 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2605.18630) 查看 PDF (https://arxiv.org/pdf/2605.18630) GitHub0 (https://github.com/csml-rpi/SciConvBench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18630)

在你的代理中获取这篇论文:

hf papers read 2605\.18630

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.18630 以从此页面链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.18630 以从此页面链接。

引用此论文的 Space0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.18630 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

大语言模型能否用 TLA+ 建模实际系统?

Hacker News Top

Specula 团队的研究人员创建了 SysMoBench 基准测试,用于评估大语言模型能否准确建模实际计算系统的 TLA+ 规范,还是仅仅照本宣科地背诵教材内容。该基准测试涵盖四个阶段共 11 个系统,揭示了当前大语言模型在准确建模系统实现与参考论文方面的系统性差距。