KWBench:衡量知识工作中无提示的问题识别能力

Hugging Face Daily Papers 论文

摘要

# 论文页面 - KWBench:衡量知识工作中无提示的问题识别能力 来源:[https://huggingface.co/papers/2604.15760](https://huggingface.co/papers/2604.15760) ## 摘要 KWBench 提供了一个基准,用于评估大模型在无提示情况下识别专业场景的能力,重点考察其能否从原始输入中识别出潜在的博弈论结构。我们发布了 KWBench(Knowledge Work Bench)的首个版本,一个针对无提示问题识别的基准。

我们发布 KWBench(Knowledge Work Bench)的首个版本,用于评估大模型在“无提示”情况下的问题识别能力:LLM 能否在着手解题之前,先识别出眼前是一个怎样的专业场景。现有前沿基准已趋饱和,且目前多数知识工作评估本质上是“按说明书提取信息或完成任务”。KWBench 瞄准的是更早的一步:仅凭原始输入,模型能否看出情境背后的博弈结构。 基准共含 223 个任务,由并购、合同谈判、临床药学、组织政治、欺诈分析、激励设计等领域的从业者提供。每个任务都嵌入了一种形式化的博弈论模式(委托-代理冲突、信号传递、机制设计失败、策略性隐瞒、联盟动态、策略互依),并配有结构化真值,记录专家对该情境的解读及预期失败路径。模型仅收到原始数据与任务提示,无任何问题类型提示。评分采用三级量表,并设强制合取检查;强制标准即预测错误路径。 我们评估了 16 个模型,最佳模型通过率为 27.9%。前两名模型在“通过”任务上仅 31.7% 重合。在前 8 名模型中,有 44 个任务仅被单一模型解决;对前 8 名进行路由可覆盖 50.7% 的基准,几乎是最佳单模型的两倍。条件通过时,各模型质量得分趋同(约 83%);无条件得分则分散。同一模型在显式提问时能正确阐述相关博弈概念,却在无提示场景中无法自发应用。 我们开源 KWBench,旨在改变前沿模型在知识工作领域的评估方式:不仅看“给定问题后执行得多好”,更看“仅凭情境能否先认出正确的问题”。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 01:58

论文页面 - KWBench:衡量知识工作中无提示的问题识别能力

来源:https://huggingface.co/papers/2604.15760

摘要

KWBench 提出了一项基准,用于评估大语言模型在无提示情况下识别专业场景的能力,重点考察其能否从原始输入中识别出潜在的博弈论结构。

我们发布 KWBench(Knowledge Work Bench)的首个版本,用于评测大语言模型的无提示问题识别能力(https://huggingface.co/papers?q=problem%20recognition):模型能否在动手解决之前就识别出专业场景。现有前沿基准已趋饱和,且目前针对知识工作的评测大多沦为“按规范抽取或完成任务”。KWBench 瞄准的是更早一步:仅凭原始输入就识别出情境的支配结构。

基准包含 223 个任务,来源涵盖并购、合同谈判、临床药学、组织政治、欺诈分析与激励机制设计。每个任务都编码了一种形式化的博弈论模式(委托-代理冲突、信号传递、机制设计失效、策略性隐瞒、联盟动态、策略互依),并附带结构化真值:专家对该情境的解读及预期失败路径。

模型仅收到原始数据与任务提示,无任何题型提示。评分采用三档细则,并设强制合取检查:强制项即预测的错误路径。我们评估了 16 个模型,最佳模型通过 27.9% 的任务;前两名模型在“通过”任务上仅 31.7% 重叠。在前八名模型中,有 44 个任务仅被单一模型解决;对前八名进行路由可覆盖 50.7% 的基准,接近最佳单模型的两倍。

条件于“通过”时,各模型质量得分趋同(≈83%);非条件得分则差异显著。同一模型在被问及时能正确阐述相关博弈论概念,却在无提示应用时失败。我们开源 KWBench,旨在改变前沿模型在知识工作领域的评测方式:不仅看“给定问题后执行得如何”,更看“仅凭情境能否先认出对的问题”。

查看 arXiv 页面(https://arxiv.org/abs/2604.15760)
查看 PDF(https://arxiv.org/pdf/2604.15760)
项目主页(https://kwbench.github.io/)
GitHub0(https://github.com/ankitmaloo/fasteval)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.15760)

在智能体中获取该论文:

hf papers read 2604.15760

还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2604.15760 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.15760 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2604.15760 即可在此页面显示链接。

包含该论文的 Collections 0

暂无 Collection 包含此论文

将该论文添加到收藏(https://huggingface.co/new-collection)即可在此页面显示链接。

相似文章

元认知监测电池:LLM自我监测的跨域基准

arXiv cs.CL

一个包含524个项目的新型跨域基准(元认知监测电池)使用人类心理测量方法评估LLM在六个认知领域的自我监测能力。应用于20个前沿LLM后,揭示了三种不同的元认知配置,并表明准确率排名与元认知敏感性排名基本相反。

BAGEL:语言模型中的动物知识专业性基准评估

arXiv cs.CL

BAGEL是一个用于评估大语言模型中与动物相关知识的新基准,从多种科学资源构建,涵盖分类学、形态学、栖息地、行为和物种相互作用等方面,通过闭卷问答对形式呈现。该基准可以进行跨分类群和知识类别的细粒度分析,为生物多样性应用中的模型优势和失败模式提供洞见。