IPQA:个性化问答中核心意图识别基准

arXiv cs.CL 论文

摘要

IPQA引入了一个用于评估个性化问答中核心意图识别的基准,解决了现有指标仅关注响应质量而非意图理解的空白。论文提出了一种基于有界理性的数据集构建方法,并证明最先进的语言模型在从答案选择模式中识别用户优先意图时存在困难。

arXiv:2510.23536v2 公告类型:替换 摘要:意图识别是在个性化问答(PQA)中生成适当响应的基础。然而,现有基准仅评估响应质量或检索性能,而不直接测量意图识别能力。这个空白至关重要,因为在不了解用户优先考虑哪些意图的情况下,系统无法生成满足个人信息需求的响应。为了解决这个问题,我们引入了核心意图的概念:用户在选择答案以满足其信息需求时优先考虑的意图。为了评估这些核心意图,我们提出了IPQA,这是个性化问答中核心意图识别的基准。由于用户不会明确表述其优先意图,我们从答案选择的可观察行为模式中推导核心意图,基于满足度理论,其中用户选择满足其接受阈值的答案。我们通过系统过滤、基于LLM的标注和结合自动验证与人工验证的严格质量控制,构建了一个涵盖各种领域的数据集。对最先进语言模型的实验评估表明,当前系统在个性化背景下的核心意图识别方面存在困难。模型无法从用户历史中识别核心意图,且随着问题复杂度增加,性能下降。代码和数据集将被公开发布,以促进该方向的未来研究。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:31

# 个性化问答中的核心意图识别基准

来源: https://arxiv.org/html/2510.23536

Maryam AmirizanianiUniversity of WashingtonSeattleWAUnited Statesamaryam@uw\.edu (https://arxiv.org/html/2510.23536v2/mailto:[email protected]),Soojin YoonYonsei UniversitySeoulRepublic of Koreasoojiny@yonsei\.ac\.kr (https://arxiv.org/html/2510.23536v2/mailto:[email protected])andDongha Lee†\\daggerYonsei UniversitySeoulRepublic of Koreadonalee@yonsei\.ac\.kr (https://arxiv.org/html/2510.23536v2/mailto:[email protected])

\(2026\)

###### 摘要

意图识别是个性化问答\(PQA\)中生成适当回答的基础\。然而,现有的基准仅评估回答质量或检索性能,而没有直接衡量意图识别能力\。这一差距至关重要,因为如果不了解用户优先考虑的意图,系统就无法生成满足个人信息需求的回答\。为了解决这一问题,我们引入了核心意图的概念:用户在选择答案时优先考虑的意图,以满足其信息需求\。为了评估这些核心意图,我们提出了IPQA,一个用于评估个性化问答中核心意图识别的基准\。由于用户不会明确陈述其优先考虑的意图,我们从答案选择中可观察到的行为模式推导核心意图,以有界理性为基础,用户通过选择满足其接受阈值的答案来满意\。我们通过系统过滤、基于LLM的标注和严格的质量控制\(结合自动化验证和人工验证\)来构建包含多个领域的数据集\。对最先进语言模型的实验评估表明,当前系统在个性化背景下的核心意图识别方面表现不佳\。模型无法从用户历史中识别核心意图,且随着问题复杂性增加,性能下降\。[\[代码库\]](https://github.com/jieyong99/IPQA)†††\\dagger对应作者\。

意图识别、个性化问答、核心意图、个性化

††journalyear:2026††copyright:cc††conference:Proceedings of the 49th International ACM SIGIR Conference on Research and Development in Information Retrieval; July 20–24, 2026; Melbourne, VIC, Australia††booktitle:Proceedings of the 49th International ACM SIGIR Conference on Research and Development in Information Retrieval \(SIGIR '26\), July 20–24, 2026, Melbourne, VIC, Australia††doi:10\.1145/3805712\.3809674††isbn:979\-8\-4007\-2599\-9/2026/07††ccs:Information systems Question answering††ccs:Information systems Personalization††ccs:Information systems Information retrieval

## 1\.引言

参见图1\.在信息搜索场景中,用户提出具有多个意图的问题,并选择与其优先考虑的意图相一致的答案\。我们将这些定义为核心意图\。

意图理解是一项基本能力,使系统能够解释驱动用户表述背后的潜在动机\。各种意图识别基准评估此能力,从预定义分类中的单意图分类\(larson\-etal\-2019\-evaluation;casanueva\-etal\-2020\-efficient;coucke2018snips\)到未知意图的开放世界检测\(zhang2021deep;zhang\-etal\-2021\-textoir\)以及多意图识别\(qin\-etal\-2020\-agif;yoon\-etal\-2024\-blendx\)\。然而,这些基准假设每个表述有固定的意图集,这在个性化问答\(PQA\)中是不充分的,相同的问题可能因用户个人背景和信息搜索目标而表达不同的意图\。

在PQA中,用户寻求由个人背景塑造的信息\(quarteroni\-2010\-personalized\),使意图理解变得至关重要,因为相同的问题可能需要根本上不同的回答\。如图1所示,关于地区菜肴的问题可能寻求真正的本地风味和独特菜肴,而提出同一问题的另一个用户可能转而寻求经济实惠的选择或饮食accommodation\。然而,现有的PQA基准\(salemi2025lampqabenchmarkpersonalizedlongform;10\.1145/3589335\.3651445;du\-etal\-2024\-perltqa;10\.1145/3711896\.3737385\)仅关注回答生成质量或检索性能,使得PQA场景中的意图识别仍未被充分探索\。

超越这种评估框架的缺失,在PQA中识别和评估意图提出了根本性的挑战\。关于开放意图检测的先前工作已经观察到,用户在单个表述中表达多个意图,这些意图的重要性也不同\(10\.1109/TASLP\.2023\.3265203\)\。在个性化背景下,这种复杂性加剧,因为所表达的意图及其相对重要性都取决于个人用户背景和信息搜索目标\。这些特征使意图识别难以预测,评估更具挑战性—不了解用户优先考虑的意图,评估就无法评估系统是否识别了驱动信息需求满足的重要动机\。

评估系统是否成功识别用户优先考虑的意图需要可验证的基准真实数据,反映用户优先级,而不涉及主观判断\。这样的基准真实数据可以从信息搜索场景中可观察到的用户行为推导而来\。有界理性\(simon1955behavioral;agosto2002bounded\)表明,在认知和资源约束下运作的个人会选择满足可接受阈值的解决方案,而不是追求穷举优化\。这一行为模式已通过检查真实用户认知和信息搜索背景中选择行为的用户研究得到经验验证\(agosto2002bounded;chen2012understanding;prabha2007enough\):用户选择满足其最低信息需求的答案,而不是追求穷举搜索,他们的答案选择可靠地反映了他们优先考虑的动机\。

基于这一经验验证的行为模式,我们引入了核心意图的概念—与所选答案中的信息相一致的意图,代表用户在建立接受阈值时明确优先考虑的动机\。如图1所示,用户最初提出具有三个意图的问题,而所选答案仅涉及其中两个意图—表明用户为了信息需求满足而设定的最低接受阈值优先考虑这两个意图\。这种方法提供了一个建立在可观察行为而非主观重要性判断基础上的实用评估框架\。虽然满足每一个表达的意图代表理想情景,但现实中的信息搜索涉及约束下的优先级划分\。核心意图捕捉这一现实:它们代表用户明确认为足以满足的意图,如答案选择所证明的那样\。虽然这可能不会捕捉到每一个可能的用户动机,但它提供了最客观的基准真实数据,无需主观重要性判断\。

为此,我们提出IPQA,一个用于评估个性化问答中核心意图识别的基准\。评估核心意图识别能力需要具有用户问题及其核心意图的数据集,但收集这样的数据很具有挑战性,因为用户很少明确陈述其核心意图\。按照PQA的先前工作\(salemi2025lampqabenchmarkpersonalizedlongform\),我们利用由社区问答平台构建的数据集,用户不仅提出问题,还提供详细的叙述说明其问题的基本动机和意图,以及所选答案展示满意度\。这些叙述和所选答案作为推导核心意图的源数据,同时丰富的用户发帖历史支持个性化设置\。构建过程通过系统过滤以确保个性化需求,随后是基于LLM的意图标注和严格的质量控制,结合自动化验证和人工验证\。为了评估核心意图识别性能,我们设计了IPQA\-Eval,一个评估框架,使用基于LLM的评估器比较系统预测与标注的核心意图,元评估证明与人工判断有强烈的一致性\。

主要贡献总结如下:

- •在PQA中引入核心意图的概念,代表用户在选择答案时优先考虑的意图,以有界理性和可观察的用户行为为基础\。
- •构建IPQA,包含具有严格质量控制的数据集和针对人工判断进行验证的评估框架\。
- •实验发现表明当前语言模型在个性化背景下的核心意图识别方面表现不佳,无法从用户历史中提取意图模式,且随着问题复杂性增加性能下降\。

## 2\.IPQA基准

在本节中,我们介绍IPQA,一个设计用于评估个性化问答\(PQA\)场景中核心意图识别能力的基准\。该基准评估系统识别PQA中核心意图的能力\。这些核心意图代表用户在选择答案时优先考虑的具体意图\。IPQA的构建通过四个步骤进行:收集PQA实例并生成初始意图标注\(第2\.2节\)、验证数据质量和过滤核心意图\(第2\.3节\)、通过人工评估验证标注\(第2\.4节\)以及为核心意图识别性能建立评估指标\(第2\.5节\)\。图2展示了我们基准数据集构建的整体过程\。整个流程中的所有提示都按照基准构建的既定实践\(salemi2025lampqabenchmarkpersonalizedlongform;10\.5555/3737916\.3738608;seo\-etal\-2025\-mt\)设计,指令最少必需,并在源代码库中提供\。

参见图2\.IPQA数据集构建流程概览:从cQA数据集的数据收集、基于LLM的意图标注,以及通过LLM验证和人工验证进行的质量控制\。

### 2\.1\.任务表述

PQA中核心意图识别任务的目标是为给定用户u提出的问题q预测核心意图IcI\_\{c\}\。为了实现个性化,系统接收用户档案Pu=\{\(qi,si\)\}i=1\|Pu\|P\_\{u\}=\\\{\(q\_\{i\},s\_\{i\}\)\\\}\_\{i=1\}^\{\|P\_\{u\}\|\},包含与源信息si=\(ni,ai\)s\_\{i\}=\(n\_\{i\},a\_\{i\}\)配对的历史问题qi,其中ni是叙述,ai是所选答案,遵循之前的个性化研究\(salemi2023lamp;kumar2024longlampbenchmarkpersonalizedlongform;salemi2025lampqabenchmarkpersonalizedlongform;kim2025rpmreasoninglevelpersonalizationblackbox;10\.1145/3726302\.3730055\)\。由于用户在现实场景中不会明确表述其优先考虑的意图,核心意图必须从s推导而来,反映真实的任务条件\。系统M\\mathcal\{M\}利用这些历史记录为当前问题预测核心意图:I^c=M\(q,Pu\)\\hat\{I\}\_\{c\}=\\mathcal\{M\}\(q,P\_\{u\}\)\。评估框架IPQA\-Eval将预测的核心意图I^c\\hat\{I\}\_\{c\}与基准真实Ic进行比较,生成意图识别分数:Sintent=IPQA\-Eval\(I^c,Ic\)S\_\{intent\}=\\textsc\{IPQA\-Eval\}\(\\hat\{I\}\_\{c\},I\_\{c\}\)\。在本工作中,我们区分三个相关概念:意图指驱动特定问题的个人动机\(例如,"品尝真正的本地美食"\),话题指在询问者之间保持不变的主题领域,用户偏好捕捉用户历史中塑造但不决定给定问题意图的一般趋势\。我们的基准关注于识别用户在选择答案时优先考虑的核心意图\。

### 2\.2\.初始实例构建

#### 2\.2\.1\.数据收集

收集真实世界的个性化问答数据—用户提出问题并表达意图—提出了巨大的实际挑战\。按照PQA研究中的既定实践\(salemi2025lampqabenchmarkpersonalizedlongform\),我们利用SE\-PQA数据集\(10\.1145/3589335\.3651445\),这是唯一提供任务所需的\(问题、叙述、所选答案\)三元组的大规模资源\。该数据集是从社区问答\(cQA\)平台构建的,用户提供包含问题详细描述的叙述和所选答案以演示解决方案\(图2左;详细实例见表9\)\。这符合我们的基准要求:叙述显示用户动机,而答案选择反映满意行为—用户选择满足最低信息需求的答案,而不是追求穷举优化\(simon1955behavioral;agosto2002bounded\)\。这些叙述和所选答案作为推导核心意图的源数据,而丰富的用户发帖历史支持个性化设置\。

然而,并非所有cQA实例都需要个性化—某些问题无论由谁提出都会产生相同的答案\。为了过滤这些事实性问题,我们选择由LaMP\-QA验证为需要个性化的SE\-PQA实例\(salemi2025lampqabenchmarkpersonalizedlongform\)\。所有使用的实例都包含由原始问题提问者明确选择的接受答案,确保答案选择反映提问者自己的判断,而不是社区投票或第三方策划\。该验证采用了两阶段验证,结合基于LLM的过滤和人工验证,以确保这些实例确实需要用户特定的背景\。每个实例包含问题q、叙述n和所选答案a\。对于每个用户,我们按时间顺序收集所有合格实例并构建档案:最新实例作为评估的目标问题,而所有前面的实例形成用户档案Pu=\{\(qi,si\)\}i=1\|Pu\|P\_\{u\}=\\\{\(q\_\{i\},s\_\{i\}\)\\\}\_\{i=1\}^\{\|P\_\{u\}\|\},其中si=\(ni,ai\)s\_\{i\}=\(n\_\{i\},a\_\{i\}\)\。由于用户不会明确陈述其核心意图,这些源数据通过可观察的行为模式支持意图推断\。这产生了结构为\(q,s,Pu\)\(q,s,P\_\{u\}\)的初始实例,为后续的意图标注提供了基础\。

#### 2\.2\.2\.初始意图生成

建立意图基准真实需要标注,因为这些意图在原始数据中不存在,必须生成\。大规模数据集的手动标注呈现了实际挑战,由于成本过高和难以在标注人员之间保持一致性\(klie\-etal\-2024\-analyzing\)\。为了应对这些局限性,标注过程采用了自动化生成,利用LLM能力,遵循基准构建中的既定实践\(seo\-etal\-2025\-mt;salemi2025lampqabenchmarkpersonalizedlongform;heo2025largelanguagemodelseffective\)\。该框架利用GPT\-5\-Mini进行初始意图

相似文章

介绍 IndQA

OpenAI Blog

OpenAI 推出了 IndQA,这是一个包含 2,278 个问题的新基准,涵盖 12 种印度语言和 10 个文化领域,旨在评估 AI 模型对现有基准无法捕捉的文化细微差别和推理密集型任务的理解能力。IndQA 由 261 位领域专家创建,针对 MMMLU 等现有多语言基准的饱和问题,重点关注真实世界的文化理解,而不是翻译或多选题任务。

推出 SimpleQA

OpenAI Blog

OpenAI 推出 SimpleQA,一个新的事实性基准数据集,包含 4,326 个简短事实性问题,旨在评估前沿语言模型在提供准确答案而不产生幻觉的能力。该数据集通过双独立标注、严格标准实现高质量,估计错误率仅为 ~3%,GPT-4o 得分不到 40%。

重探语义处理的痛点:语言模型的语义推理基准测试

arXiv cs.CL

研究人员推出了 SemanticQA 基准测试,旨在评估语言模型在包含习语、名词复合词及动词结构等语义短语处理任务上的表现。结果显示,不同架构与规模的模型在语义推理任务上的性能存在显著差异。