KWBench：衡量知识工作中无提示的问题识别能力

Hugging Face Daily Papers 2026/04/17 00:00 论文

llm-evaluation benchmark problem-recognition game-theory knowledge-work large-language-models

摘要

# 论文页面 - KWBench：衡量知识工作中无提示的问题识别能力来源：[https://huggingface.co/papers/2604.15760](https://huggingface.co/papers/2604.15760) ## 摘要 KWBench 提供了一个基准，用于评估大模型在无提示情况下识别专业场景的能力，重点考察其能否从原始输入中识别出潜在的博弈论结构。我们发布了 KWBench（Knowledge Work Bench）的首个版本，一个针对无提示问题识别的基准。

我们发布 KWBench（Knowledge Work Bench）的首个版本，用于评估大模型在“无提示”情况下的问题识别能力：LLM 能否在着手解题之前，先识别出眼前是一个怎样的专业场景。现有前沿基准已趋饱和，且目前多数知识工作评估本质上是“按说明书提取信息或完成任务”。KWBench 瞄准的是更早的一步：仅凭原始输入，模型能否看出情境背后的博弈结构。基准共含 223 个任务，由并购、合同谈判、临床药学、组织政治、欺诈分析、激励设计等领域的从业者提供。每个任务都嵌入了一种形式化的博弈论模式（委托-代理冲突、信号传递、机制设计失败、策略性隐瞒、联盟动态、策略互依），并配有结构化真值，记录专家对该情境的解读及预期失败路径。模型仅收到原始数据与任务提示，无任何问题类型提示。评分采用三级量表，并设强制合取检查；强制标准即预测错误路径。我们评估了 16 个模型，最佳模型通过率为 27.9%。前两名模型在“通过”任务上仅 31.7% 重合。在前 8 名模型中，有 44 个任务仅被单一模型解决；对前 8 名进行路由可覆盖 50.7% 的基准，几乎是最佳单模型的两倍。条件通过时，各模型质量得分趋同（约 83%）；无条件得分则分散。同一模型在显式提问时能正确阐述相关博弈概念，却在无提示场景中无法自发应用。我们开源 KWBench，旨在改变前沿模型在知识工作领域的评估方式：不仅看“给定问题后执行得多好”，更看“仅凭情境能否先认出正确的问题”。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 01:58

论文页面 - KWBench：衡量知识工作中无提示的问题识别能力

来源：https://huggingface.co/papers/2604.15760

摘要

KWBench 提出了一项基准，用于评估大语言模型在无提示情况下识别专业场景的能力，重点考察其能否从原始输入中识别出潜在的博弈论结构。

我们发布 KWBench（Knowledge Work Bench）的首个版本，用于评测大语言模型的无提示问题识别能力（https://huggingface.co/papers?q=problem%20recognition）：模型能否在动手解决之前就识别出专业场景。现有前沿基准已趋饱和，且目前针对知识工作的评测大多沦为“按规范抽取或完成任务”。KWBench 瞄准的是更早一步：仅凭原始输入就识别出情境的支配结构。

基准包含 223 个任务，来源涵盖并购、合同谈判、临床药学、组织政治、欺诈分析与激励机制设计。每个任务都编码了一种形式化的博弈论模式（委托-代理冲突、信号传递、机制设计失效、策略性隐瞒、联盟动态、策略互依），并附带结构化真值：专家对该情境的解读及预期失败路径。

模型仅收到原始数据与任务提示，无任何题型提示。评分采用三档细则，并设强制合取检查：强制项即预测的错误路径。我们评估了 16 个模型，最佳模型通过 27.9% 的任务；前两名模型在“通过”任务上仅 31.7% 重叠。在前八名模型中，有 44 个任务仅被单一模型解决；对前八名进行路由可覆盖 50.7% 的基准，接近最佳单模型的两倍。

条件于“通过”时，各模型质量得分趋同（≈83%）；非条件得分则差异显著。同一模型在被问及时能正确阐述相关博弈论概念，却在无提示应用时失败。我们开源 KWBench，旨在改变前沿模型在知识工作领域的评测方式：不仅看“给定问题后执行得如何”，更看“仅凭情境能否先认出对的问题”。

查看 arXiv 页面（https://arxiv.org/abs/2604.15760）
查看 PDF（https://arxiv.org/pdf/2604.15760）
项目主页（https://kwbench.github.io/）
GitHub0（https://github.com/ankitmaloo/fasteval）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.15760）

在智能体中获取该论文：

hf papers read 2604.15760

还没装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2604.15760 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.15760 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2604.15760 即可在此页面显示链接。

包含该论文的 Collections 0

暂无 Collection 包含此论文

将该论文添加到收藏（https://huggingface.co/new-collection）即可在此页面显示链接。

KWBench：衡量知识工作中无提示的问题识别能力

论文页面 - KWBench：衡量知识工作中无提示的问题识别能力

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的 Collections 0

相似文章

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

RoleConflictBench：用于评估大语言模型情境敏感性的角色冲突场景基准

元认知监测电池：LLM自我监测的跨域基准

CulturALL：评测大模型多语言多文化能力的实景基准

BAGEL：语言模型中的动物知识专业性基准评估

提交意见反馈