IntentGrasp:意图理解的综合基准测试

Hugging Face Daily Papers 论文

摘要

本文引入了 IntentGrasp,这是一个用于评估大型语言模型意图理解能力的综合基准测试,揭示了 20 个测试模型表现不佳的问题。论文提出了有意图微调(Intentional Fine-Tuning, IFT)作为解决方案,该方法显著提升了模型性能,并展现出强大的跨领域泛化能力。

准确理解语音、对话和文本背后的意图,对于开发有益的大型语言模型(LLM)助手至关重要。本文引入了 IntentGrasp,这是一个用于评估 LLM 意图理解能力的综合基准测试。IntentGrasp 源自 49 个高质量、开放授权的语料库,涵盖 12 个不同领域,通过源数据集筛选、意图标签上下文关联以及任务格式统一构建而成。IntentGrasp 包含一个由 262,759 个实例组成的大规模训练集,以及两个评估集:包含 12,909 个测试用例的完整测试集(All Set)和更为平衡且更具挑战性的精简测试集(Gem Set,含 470 个用例)。对来自 7 个系列的 20 个 LLM(包括 GPT-5.4、Gemini-3.1-Pro 和 Claude-Opus-4.7 等前沿模型)进行的广泛评估表明,其表现不尽如人意,在完整测试集上的得分低于 60%,在精简测试集上的得分低于 25%。值得注意的是,在精简测试集中,20 个测试模型中有 17 个的表现甚至不如随机猜测基线(15.2%),而预估的人类表现约为 81.1%,显示出巨大的改进空间。为了提升这种能力,本文提出了有意图微调(IFT),即在 IntentGrasp 的训练集上对模型进行微调,从而在完整测试集上获得 30 多个 F1 点的显著提升,在精简测试集上提升 20 多个点。有趣的是,留一法跨域(Leave-one-domain-out, Lodo)实验进一步证明了 IFT 强大的跨领域泛化能力,验证了它是显著增强 LLM 意图理解能力的一种有前景的方法。总体而言,通过基准测试和提升意图理解能力,本研究为开发更具意图性、能力更强且更安全的 AI 助手以造福人类和社会福祉,指明了一条充满希望的道路。
查看原文
查看缓存全文

缓存时间: 2026/05/11 02:43

论文页面 - IntentGrasp:意图理解的全面基准测试

来源:https://huggingface.co/papers/2605.06832

摘要

IntentGrasp 是一个用于评估大型语言模型(LLM)意图理解能力的基准测试,测试结果显示 20 个模型表现不佳,但经过有针对性的微调后取得了显著改善。

准确理解语音、对话和文本背后的意图,对于开发有益的 LLM 助手至关重要。本文介绍了 IntentGrasp,这是一个用于评估 LLM 意图理解能力的全面基准测试 (https://huggingface.co/papers?q=benchmark)。IntentGrasp 源自 49 个高质量、开放许可的语料库,涵盖 12 个不同领域,通过精选源数据集、上下文化意图标签和统一任务格式构建而成。IntentGrasp 包含一个拥有 262,759 个实例的大规模训练集和两个评估集:包含 12,909 个测试用例的 All Set,以及一个更加平衡且更具挑战性的包含 470 个案例的 Gem Set。对来自 7 个系列的 20 个 LLM(包括 GPT-5.4、Gemini-3.1-Pro 和 Claude-Opus-4.7 等前沿模型)进行的广泛评估表明,其表现不尽如人意,在 All Set 上的得分低于 60%,在 Gem Set 上的得分低于 25%。值得注意的是,在 Gem Set 上,20 个测试模型中有 17 个的表现差于随机猜测基线(15.2%),而估算的人类表现约为 81.1%,显示出巨大的改进空间。为了增强这种能力,本文提出了有意微调(Intentional Fine-Tuning, IFT)(https://huggingface.co/papers?q=Fine-Tuning),即在 IntentGrasp 的训练集上对模型进行微调,使得在 All Set 上 F1 分数提升了 30 个点以上,在 Gem Set 上提升了 20 个点以上。值得注意的是,留一法领域外推(leave-one-domain-out, Lodo)实验进一步证明了 IFT 强大的跨领域泛化能力 (https://huggingface.co/papers?q=cross-domain%20generalizability),验证了它是一种能够大幅提升 LLM 意图理解能力 (https://huggingface.co/papers?q=intent%20understanding) 的有前景的方法。总体而言,通过基准测试 (https://huggingface.co/papers?q=benchmark) 和提升意图理解能力 (https://huggingface.co/papers?q=intent%20understanding),本研究为开发更具目的性、能力更强且更安全的 AI 助手以造福人类和社会指明了一条有前景的道路。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06832) 查看 PDF (https://arxiv.org/pdf/2605.06832) 项目页面 (https://huggingface.co/datasets/yuweiyin/IntentGrasp) GitHub1 (https://github.com/YuweiYin/IntentGrasp) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.06832)

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.06832 以从此页面进行链接。

引用此论文的数据集 1

yuweiyin/IntentGrasp 查看器 • 更新于约 1 小时前 • 276k • 311 • 2 (https://huggingface.co/datasets/yuweiyin/IntentGrasp)

引用此论文的空间(Spaces) 0

没有链接此论文的空间

在空间 README.md 中引用 arxiv.org/abs/2605.06832 以从此页面进行链接。

包含此论文的收藏夹 0

没有包含此论文的收藏夹

将此论文添加到收藏夹 (https://huggingface.co/new-collection) 以从此页面进行链接。

相似文章

IPQA:个性化问答中核心意图识别基准

arXiv cs.CL

IPQA引入了一个用于评估个性化问答中核心意图识别的基准,解决了现有指标仅关注响应质量而非意图理解的空白。论文提出了一种基于有界理性的数据集构建方法,并证明最先进的语言模型在从答案选择模式中识别用户优先意图时存在困难。

IntentVLA: 针对混叠机器人操作的短期意图建模

Hugging Face Daily Papers

IntentVLA 是一种历史条件视觉-语言-动作框架,通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性,解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench,这是一个用于评估此类方法的模糊感知基准。

重探语义处理的痛点:语言模型的语义推理基准测试

arXiv cs.CL

研究人员推出了 SemanticQA 基准测试,旨在评估语言模型在包含习语、名词复合词及动词结构等语义短语处理任务上的表现。结果显示,不同架构与规模的模型在语义推理任务上的性能存在显著差异。

论大语言模型的固有可解释性:设计原则和架构调查

arXiv cs.CL

一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。