KWBench:衡量知识工作中无提示的问题识别能力
摘要
# 论文页面 - KWBench:衡量知识工作中无提示的问题识别能力 来源:[https://huggingface.co/papers/2604.15760](https://huggingface.co/papers/2604.15760) ## 摘要 KWBench 提供了一个基准,用于评估大模型在无提示情况下识别专业场景的能力,重点考察其能否从原始输入中识别出潜在的博弈论结构。我们发布了 KWBench(Knowledge Work Bench)的首个版本,一个针对无提示问题识别的基准。
查看缓存全文
缓存时间: 2026/04/22 01:58
论文页面 - KWBench:衡量知识工作中无提示的问题识别能力
来源:https://huggingface.co/papers/2604.15760
摘要
KWBench 提出了一项基准,用于评估大语言模型在无提示情况下识别专业场景的能力,重点考察其能否从原始输入中识别出潜在的博弈论结构。
我们发布 KWBench(Knowledge Work Bench)的首个版本,用于评测大语言模型的无提示问题识别能力(https://huggingface.co/papers?q=problem%20recognition):模型能否在动手解决之前就识别出专业场景。现有前沿基准已趋饱和,且目前针对知识工作的评测大多沦为“按规范抽取或完成任务”。KWBench 瞄准的是更早一步:仅凭原始输入就识别出情境的支配结构。
基准包含 223 个任务,来源涵盖并购、合同谈判、临床药学、组织政治、欺诈分析与激励机制设计。每个任务都编码了一种形式化的博弈论模式(委托-代理冲突、信号传递、机制设计失效、策略性隐瞒、联盟动态、策略互依),并附带结构化真值:专家对该情境的解读及预期失败路径。
模型仅收到原始数据与任务提示,无任何题型提示。评分采用三档细则,并设强制合取检查:强制项即预测的错误路径。我们评估了 16 个模型,最佳模型通过 27.9% 的任务;前两名模型在“通过”任务上仅 31.7% 重叠。在前八名模型中,有 44 个任务仅被单一模型解决;对前八名进行路由可覆盖 50.7% 的基准,接近最佳单模型的两倍。
条件于“通过”时,各模型质量得分趋同(≈83%);非条件得分则差异显著。同一模型在被问及时能正确阐述相关博弈论概念,却在无提示应用时失败。我们开源 KWBench,旨在改变前沿模型在知识工作领域的评测方式:不仅看“给定问题后执行得如何”,更看“仅凭情境能否先认出对的问题”。
查看 arXiv 页面(https://arxiv.org/abs/2604.15760)
查看 PDF(https://arxiv.org/pdf/2604.15760)
项目主页(https://kwbench.github.io/)
GitHub0(https://github.com/ankitmaloo/fasteval)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.15760)
在智能体中获取该论文:
hf papers read 2604.15760
还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2604.15760 即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2604.15760 即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2604.15760 即可在此页面显示链接。
包含该论文的 Collections 0
暂无 Collection 包含此论文
将该论文添加到收藏(https://huggingface.co/new-collection)即可在此页面显示链接。
相似文章
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
RoleConflictBench:用于评估大语言模型情境敏感性的角色冲突场景基准
RoleConflictBench 是一个新颖的基准,包含 13,000+ 个场景和 65 个角色,旨在评估大语言模型在多个社会期望相互冲突的角色冲突情境中的情境敏感性。对 10 个大语言模型的分析表明,这些模型主要依赖于学习到的角色偏好,而非动态的情境线索来做决策。
元认知监测电池:LLM自我监测的跨域基准
一个包含524个项目的新型跨域基准(元认知监测电池)使用人类心理测量方法评估LLM在六个认知领域的自我监测能力。应用于20个前沿LLM后,揭示了三种不同的元认知配置,并表明准确率排名与元认知敏感性排名基本相反。
CulturALL:评测大模型多语言多文化能力的实景基准
CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准,用于检验大模型在真实文化场景下的表现;目前最佳模型仅得 44.48%,提升空间巨大。
BAGEL:语言模型中的动物知识专业性基准评估
BAGEL是一个用于评估大语言模型中与动物相关知识的新基准,从多种科学资源构建,涵盖分类学、形态学、栖息地、行为和物种相互作用等方面,通过闭卷问答对形式呈现。该基准可以进行跨分类群和知识类别的细粒度分析,为生物多样性应用中的模型优势和失败模式提供洞见。