IntentGrasp：意图理解的综合基准测试

Hugging Face Daily Papers 2026/05/07 00:00 论文

benchmark intent-understanding fine-tuning llm-evaluation nlp open-source

摘要

本文引入了 IntentGrasp，这是一个用于评估大型语言模型意图理解能力的综合基准测试，揭示了 20 个测试模型表现不佳的问题。论文提出了有意图微调（Intentional Fine-Tuning, IFT）作为解决方案，该方法显著提升了模型性能，并展现出强大的跨领域泛化能力。

准确理解语音、对话和文本背后的意图，对于开发有益的大型语言模型（LLM）助手至关重要。本文引入了 IntentGrasp，这是一个用于评估 LLM 意图理解能力的综合基准测试。IntentGrasp 源自 49 个高质量、开放授权的语料库，涵盖 12 个不同领域，通过源数据集筛选、意图标签上下文关联以及任务格式统一构建而成。IntentGrasp 包含一个由 262,759 个实例组成的大规模训练集，以及两个评估集：包含 12,909 个测试用例的完整测试集（All Set）和更为平衡且更具挑战性的精简测试集（Gem Set，含 470 个用例）。对来自 7 个系列的 20 个 LLM（包括 GPT-5.4、Gemini-3.1-Pro 和 Claude-Opus-4.7 等前沿模型）进行的广泛评估表明，其表现不尽如人意，在完整测试集上的得分低于 60%，在精简测试集上的得分低于 25%。值得注意的是，在精简测试集中，20 个测试模型中有 17 个的表现甚至不如随机猜测基线（15.2%），而预估的人类表现约为 81.1%，显示出巨大的改进空间。为了提升这种能力，本文提出了有意图微调（IFT），即在 IntentGrasp 的训练集上对模型进行微调，从而在完整测试集上获得 30 多个 F1 点的显著提升，在精简测试集上提升 20 多个点。有趣的是，留一法跨域（Leave-one-domain-out, Lodo）实验进一步证明了 IFT 强大的跨领域泛化能力，验证了它是显著增强 LLM 意图理解能力的一种有前景的方法。总体而言，通过基准测试和提升意图理解能力，本研究为开发更具意图性、能力更强且更安全的 AI 助手以造福人类和社会福祉，指明了一条充满希望的道路。

查看原文

查看缓存全文

缓存时间: 2026/05/11 02:43

论文页面 - IntentGrasp：意图理解的全面基准测试

来源：https://huggingface.co/papers/2605.06832

摘要

IntentGrasp 是一个用于评估大型语言模型（LLM）意图理解能力的基准测试，测试结果显示 20 个模型表现不佳，但经过有针对性的微调后取得了显著改善。

准确理解语音、对话和文本背后的意图，对于开发有益的 LLM 助手至关重要。本文介绍了 IntentGrasp，这是一个用于评估 LLM 意图理解能力的全面基准测试 (https://huggingface.co/papers?q=benchmark)。IntentGrasp 源自 49 个高质量、开放许可的语料库，涵盖 12 个不同领域，通过精选源数据集、上下文化意图标签和统一任务格式构建而成。IntentGrasp 包含一个拥有 262,759 个实例的大规模训练集和两个评估集：包含 12,909 个测试用例的 All Set，以及一个更加平衡且更具挑战性的包含 470 个案例的 Gem Set。对来自 7 个系列的 20 个 LLM（包括 GPT-5.4、Gemini-3.1-Pro 和 Claude-Opus-4.7 等前沿模型）进行的广泛评估表明，其表现不尽如人意，在 All Set 上的得分低于 60%，在 Gem Set 上的得分低于 25%。值得注意的是，在 Gem Set 上，20 个测试模型中有 17 个的表现差于随机猜测基线（15.2%），而估算的人类表现约为 81.1%，显示出巨大的改进空间。为了增强这种能力，本文提出了有意微调（Intentional Fine-Tuning, IFT）(https://huggingface.co/papers?q=Fine-Tuning)，即在 IntentGrasp 的训练集上对模型进行微调，使得在 All Set 上 F1 分数提升了 30 个点以上，在 Gem Set 上提升了 20 个点以上。值得注意的是，留一法领域外推（leave-one-domain-out, Lodo）实验进一步证明了 IFT 强大的跨领域泛化能力 (https://huggingface.co/papers?q=cross-domain%20generalizability)，验证了它是一种能够大幅提升 LLM 意图理解能力 (https://huggingface.co/papers?q=intent%20understanding) 的有前景的方法。总体而言，通过基准测试 (https://huggingface.co/papers?q=benchmark) 和提升意图理解能力 (https://huggingface.co/papers?q=intent%20understanding)，本研究为开发更具目的性、能力更强且更安全的 AI 助手以造福人类和社会指明了一条有前景的道路。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06832) 查看 PDF (https://arxiv.org/pdf/2605.06832) 项目页面 (https://huggingface.co/datasets/yuweiyin/IntentGrasp) GitHub1 (https://github.com/YuweiYin/IntentGrasp) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.06832)

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.06832 以从此页面进行链接。

引用此论文的数据集 1

yuweiyin/IntentGrasp 查看器 • 更新于约 1 小时前 • 276k • 311 • 2 (https://huggingface.co/datasets/yuweiyin/IntentGrasp)

引用此论文的空间（Spaces） 0

没有链接此论文的空间

在空间 README.md 中引用 arxiv.org/abs/2605.06832 以从此页面进行链接。

包含此论文的收藏夹 0

没有包含此论文的收藏夹

将此论文添加到收藏夹 (https://huggingface.co/new-collection) 以从此页面进行链接。

IntentGrasp：意图理解的综合基准测试

论文页面 - IntentGrasp：意图理解的全面基准测试

摘要

引用此论文的模型 0

引用此论文的数据集 1

yuweiyin/IntentGrasp 查看器 • 更新于约 1 小时前 • 276k • 311 • 2 (https://huggingface.co/datasets/yuweiyin/IntentGrasp)

引用此论文的空间（Spaces） 0

包含此论文的收藏夹 0

相似文章

大语言模型的维度级意图保真度评估：来自结构化提示消融的证据

IPQA：个性化问答中核心意图识别基准

IntentVLA: 针对混叠机器人操作的短期意图建模

重探语义处理的痛点：语言模型的语义推理基准测试

论大语言模型的固有可解释性：设计原则和架构调查

提交意见反馈