scientific-assistant

#scientific-assistant

SCICONVBENCH：在计算科学任务制定中基准测试LLMs的多轮澄清能力

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

SCICONVBENCH是一个基准测试，用于评估LLMs在跨计算科学领域中对表述不清的科学查询进行多轮澄清的能力。研究发现，即使是顶尖模型也难以进行消歧，并且频繁做出隐性假设。

0 人收藏 0 人点赞