MapSatisfyBench: 通过基于行为的隐式决策因素评估满意度感知的地图代理

arXiv cs.AI 论文

摘要

MapSatisfyBench是一个基准,用于评估基于LLM的地图代理从表述不明确的用户查询中恢复隐式决策因素的能力,将评估从任务完成转向满意度感知的空间决策。

arXiv:2606.17453v1 公告类型:新 摘要:大语言模型代理正日益集成到地图服务中。由于地图服务嵌入在日常场景而非专业任务环境中,用户常常非正式地表达需求,导致查询表述不明确,包含许多未言明的需求,即对用户满意度至关重要的隐式决策因素。虽然澄清问题是缓解这一问题的有效方法,但它增加了日常交互中用户的负担,而一个称职的代理应首先主动从可用信息源中恢复这些因素。然而,评估这一能力具有挑战性。第一个挑战是确定哪些隐式决策因素适合评估。一个因素只有在影响用户接受度且能从代理响应前可获取的信息中恢复时,才具有可评估性。其次,用户满意度无法可靠地通过单个参考答案表示,需要一个将满意度相关因素转化为客观可量化评估目标的基准。为应对这些挑战,我们提出一个恢复-识别-筛选框架,从行为链证据中重建完整的用户需求,识别隐式决策因素,并仅保留那些有查询前证据支持的因素。基于此方法,我们从大规模真实世界匿名用户数据构建了MapSatisfyBench,并从五个维度标注了真实值,实现了对满意度感知地图代理的全链条评估。实验表明,当前代理在显式任务完成上表现良好,但在满足隐式决策因素以及主动获取满意度感知决策所需证据方面仍存在局限。这些发现将MapSatisfyBench确立为一个基准,推动地图代理评估从任务完成转向满意度感知的空间决策。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:36

# MapSatisfyBench: 通过行为隐含决策因素评估满意度感知地图代理 来源: https://arxiv.org/html/2606.17453 Lubin Bai2†\dagger, Mengyu Cao1†\dagger, Sixue Wang1, Zhongwei Wan1, Yue Pan1, Jiale Hou1, Xiang Li1\*, Xiuyuan Zhang2\* ###### 摘要 大型语言模型代理正越来越多地集成到地图服务中。由于地图服务嵌入在日常生活场景而非专业任务环境中,用户通常以非正式方式表达需求,导致查询不完整,包含许多未表达的需求,即对用户满意度至关重要的隐含决策因素。虽然澄清是缓解此问题的有效方式,但它增加了日常交互中的用户负担,一个能力强的代理应首先主动从可用信息来源中恢复这些因素。然而,评估这种能力具有挑战性。第一个挑战是确定哪些隐含决策因素适合评估。一个因素只有在影响用户接受度且能从代理响应前可获取的信息中恢复时,才是可评估的。其次,用户满意度不能由单个参考答案可靠表示,需要一个基准将满意度相关因素转化为客观可量化的评估目标。为应对这些挑战,我们提出一个恢复-识别-过滤框架,从行为链证据中重建完整用户需求,识别隐含决策因素,并仅保留那些由查询前证据支持的因素。基于此方法,我们从大规模真实世界匿名用户数据构建了MapSatisfyBench,并从五个维度标注了真实值,实现了对满意度感知地图代理的全链条评估。实验表明,当前代理在显式任务完成上通常表现良好,但在满足隐含决策因素和主动获取满意度决策所需证据方面仍有限。这些发现将MapSatisfyBench确立为一个基准,推动地图代理评估从任务完成转向满意度驱动的空间决策。

## 1 引言

参考图注 图1: MapSatisfyBench 的动机。地图服务查询通常定义多个可行响应,满意度取决于代理是否恢复由行为支持的隐含决策因素。

大型语言模型(LLM)代理正越来越多地被部署为地图服务助手,将自然语言请求转化为可执行动作,如位置搜索、路线导航和行程规划 (Xie 等 2024 (https://arxiv.org/html/2606.17453#bib.bib43); AMAP AI Agent Team 等 2025 (https://arxiv.org/html/2606.17453#bib.bib21))。通过集成自然语言交互、上下文信号和工具执行,这些代理为日常空间决策提供了更便捷和灵活的支持。然而,由于地图服务嵌入在日常生活场景而非专业任务环境中,真实世界的用户查询很少是完全指定的 (Kamvar and Baluja 2006 (https://arxiv.org/html/2606.17453#bib.bib22); Church and Smyth 2009 (https://arxiv.org/html/2606.17453#bib.bib10))。用户通常提出简短且不完整的查询,但仍期望代理理解其需求,即使这些需求未明确表达。这一挑战因许多地图服务任务的开放性而被进一步放大。与通常有唯一正确答案的事实查询不同,许多日常地图查询本质上具有多解性,即其表面文本定义了一个可能的答案空间,而非单一的真实响应 (Vansteenwegen 等 2011 (https://arxiv.org/html/2606.17453#bib.bib39); Purves 等 2018 (https://arxiv.org/html/2606.17453#bib.bib33); Delling 等 2017 (https://arxiv.org/html/2606.17453#bib.bib13))。因此,智能地图代理的关键任务不仅是产生一个可行响应,而是从多个可行响应中选择最可能满足用户的那一个。这种满意度与隐含决策因素密切相关,这些因素未在查询中表达,但对结果决策是否被用户接受至关重要 (Pu 等 2012 (https://arxiv.org/html/2606.17453#bib.bib32); Adomavicius and Tuzhilin 2005 (https://arxiv.org/html/2606.17453#bib.bib2))。例如,当用户在搜索火车站附近医院后询问“我怎么去那里?”时,驾驶和公共交通都可能是有语义有效响应;但是,如果用户刚下火车且没有车,那么以公交为主的路线更可能被接受。虽然代理可以通过询问用户来澄清这种不确定性,但频繁这样做会增加交互负担并降低可用性 (Zou 等 2023 (https://arxiv.org/html/2606.17453#bib.bib49); Zamani 等 2020 (https://arxiv.org/html/2606.17453#bib.bib44))。在许多情况下,缺失的因素可以从可用信息源中恢复,如用户档案和交互历史 (Church and Smyth 2009 (https://arxiv.org/html/2606.17453#bib.bib10); Villegas 等 2018 (https://arxiv.org/html/2606.17453#bib.bib40))。因此,一个能力强的地图代理应主动利用这些信息源,并将澄清问题保留给那些无法可靠解决的情况 (Maes 1994 (https://arxiv.org/html/2606.17453#bib.bib27); Horvitz 1999 (https://arxiv.org/html/2606.17453#bib.bib20))。这激励我们设计一个基准,用于评估地图代理是否能识别信息缺口、主动从可用来源获取相关证据,并将恢复的隐含决策因素融入满意度感知响应中。

最近的基准从多个维度显著推进了基于LLM的地图代理评估,包括规划、工具使用和信息综合 (Xie 等 2024 (https://arxiv.org/html/2606.17453#bib.bib43); Chaudhuri 等 2025 (https://arxiv.org/html/2606.17453#bib.bib7); Cheng 等 2025 (https://arxiv.org/html/2606.17453#bib.bib9); Song 等 2026 (https://arxiv.org/html/2606.17453#bib.bib37); He 等 2025a (https://arxiv.org/html/2606.17453#bib.bib18); LBS-IntentBench Contributors 2026 (https://arxiv.org/html/2606.17453#bib.bib24))。这些努力为改进地图代理提供了重要信号,但并未直接衡量代理是否能在未完全指定的地图服务交互中做出可能满足用户的决策。构建这样一个基准是有意义的,但在两个方面具有挑战性。首先,隐含决策因素很复杂。它们是缩小可行解空间并使一个响应比其他语义有效替代更可接受的关键条件,但它们非常复杂。一方面,并非用户行为揭示的每个因素都适合评估,因为其中一些无法恢复或评估。一个基准应仅保留那些代理能在响应前从可用信息中合理恢复的因素(如历史行为和时空环境)。另一方面,这些因素也具有不同特征。例如,有些是硬约束,违反它们对响应可接受性有更强的负面影响,而其他是软偏好,仅适度改变可行选项的相对可接受性。其次,真实值构建并不简单,因为满意度不能简化为单个参考答案或直接的满意/不满意标签。一个面向满意度的基准应改为将影响接受度的因素转化为可量化的评估参考,包括每个隐含因素是否被满足以及它应多强地影响最终分数。这需要联合设计真实值标注和评估指标,使基准能全面准确地评估代理是否产生可能满足用户的响应。

为应对这些挑战,我们提出一个基于行为链证据的恢复-识别-过滤框架,并构建了MapSatisfyBench。行为链证据连接了查询前信息、时空环境和用户后续动作,为重建用户试图完成的目标提供了客观基础。基于此证据,恢复步骤重建交互背后的完整需求;识别步骤将重建需求与表面查询比较,以揭示未表达的决策因素;过滤步骤仅保留那些由响应前证据支持的因素,因此对代理而言是可评估的。保留的因素进一步标注了其约束类型和证据支持的权重,使MapSatisfyBench不仅能量化代理是否满足显式任务,还能量化是否满足影响接受响应概率的隐含因素。在此基础上,MapSatisfyBench提供了一个行为驱动的基准,用于地图服务中的满意度感知决策。与主要评估代理是否能规划、检索或执行有效地图服务任务的任务完成导向基准不同,MapSatisfyBench评估代理是否能将开放式地图服务决策与决定用户是否可能接受响应的行为支持因素对齐。MapSatisfyBench旨在推动地图代理评估从“任务是否完成”转向“决策是否满足用户”。

在我们对12个基于LLM的代理的评估中,当前系统通常在显式意图完成和事实真实性上取得高分,但在隐含需求满足和工具选择上显示出明显弱点。这些结果表明地图代理通常能理解明确的请求,但仍难以识别那些使响应让用户感到可接受和有用的行为支持决策因素。

我们的贡献有三方面。首先,我们提出了一种将主观满意度转化为行为支持的隐含决策因素的方法,使得无需直接满意度标签即可进行客观评估。其次,我们构建了MapSatisfyBench,一个覆盖多样化真实地图服务场景的满意度感知基准,以及一个全链条评估协议,共同评估显式任务完成、隐含需求满足、工具选择等。第三,我们的实验揭示了表面任务完成与满意度感知决策之间的持续差距,为开发能更好支持真实用户决策的地图代理提供了实用的诊断洞察。

## 2 相关工作

##### 地图服务的代理基准。 在地图服务中部署LLM代理的日益增多,推动了一大批基准来评估在地理约束和真实服务需求下的代理能力。早期的努力将旅行规划作为空间决策的结构化代理。TravelPlanner (Xie 等 2024 (https://arxiv.org/html/2606.17453#bib.bib43)) 引入了第一个真实的沙箱,用于评估多约束行程生成及外部工具和旅行记录,随后的基准如 TripCraft (Chaudhuri 等 2025 (https://arxiv.org/html/2606.17453#bib.bib7))、TravelBench (Cheng 等 2025 (https://arxiv.org/html/2606.17453#bib.bib9)) 和 VitaBench (He 等 2025b (https://arxiv.org/html/2606.17453#bib.bib19)) 将评估扩展到更真实的服务导向场景,如无法解决的请求和跨场景生活服务任务。总体而言,这些基准标志着从静态行程生成到交互式、工具基础的服务完成的转变。

更近期的作品在直接的地图服务场景中评估代理。MobilityBench (Song 等 2026 (https://arxiv.org/html/2606.17453#bib.bib37)) 通过确定性API重放沙箱评估匿名高德地图查询上的路线规划代理,而 LocalSearchBench (He 等 2025a (https://arxiv.org/html/2606.17453#bib.bib18)) 针对本地服务搜索,涉及大规模商户数据库和需要多跳推理的真实用户请求。LBS-IntentBench (LBS-IntentBench Contributors 2026 (https://arxiv.org/html/2606.17453#bib.bib24)) 通过关注隐式意图推理,将地图代理评估超越显式指令执行,这与我们的动机部分一致。然而,它主要评估意图恢复。相比之下,MapSatisfyBench 聚焦于代理在存在模糊性时是否能做出令人满意且可执行的决策,通过从用户行为链重建行为支持的隐含决策因素并评估满意度感知响应。

##### 满意度感知代理基准。 用户满意度从早期对话系统评估到最近的以用户为中心的代理基准中得到了研究。经典的 PARADISE 框架 (Walker 等 1997 (https://arxiv.org/html/2606.17453#bib.bib41)) 将满意度与任务成功和交互成本相关联,后来的任务导向对话工作,包括 USS (Sun 等 2021 (https://arxiv.org/html/2606.17453#bib.bib38))、SG-USM (Feng 等 2023 (https://arxiv.org/html/2606.17453#bib.bib15))、SPUR (Lin 等 2024 (https://arxiv.org/html/2606.17453#bib.bib26)) 和 CAUSE (Abolghasemi 等 2024 (https://arxiv.org/html/2606.17453#bib.bib1)),进一步从对话轨迹、任务属性满足、可解释评分或反事实不满意案例中建模满意度。在一般LLM评估中,满意度通常通过人类偏好或LLM作为评委的协议来近似,如 InstructGPT (Ouyang 等 2022 (https://arxiv.org/html/2606.17453#bib.bib31))、WebGPT (Nakano 等 2021 (https://arxiv.org/html/2606.17453#bib.bib28))、MT-Bench 和 Chatbot Arena (Zheng 等 2023 (https://arxiv.org/html/2606.17453#bib.bib47))、AlpacaFarm (Dubois 等 2023 (https://arxiv.org/html/2606.17453#bib.bib14))、Arena-Hard (Li 等 2024 (https://arxiv.org/html/2606.17453#bib.bib25)) 以及用户报告场景基准 URS (Wang 等 2024 (https://arxiv.org/html/2606.17453#bib.bib8))。更近期的工作转向交互和个性化:UserBench (Qian 等 2025 (https://arxiv.org/html/2606.17453#bib.bib34)) 评估在未完全指定目标下的偏好发现,AURA (Kim 等 2025 (https://arxiv.org/html/2606.17453#bib.bib23)) 分析跨交互规划阶段的用户满意度,CollabLLM (Wu 等 2025 (https://arxiv.org/html/2606.17453#bib.bib42)) 优化多轮协作以最大化长期用户利益,而个性化基准如 PersonalLLM (Zollo 等 2025 (https://arxiv.org/html/2606.17453#bib.bib48))、PrefEval (Zhao 等 2025a (https://arxiv.org/html/2606.17453#bib.bib46)) 和 PersonaLens (Zhao 等 2025b (https://arxiv.org/html/2606.17453#bib.bib45)) 评估对个体偏好或用户档案的适应性。这些研究显示出从精确匹配正确性到以用户为中心评估的明显转变,但大多将满意度视为响应级偏好、预测标签或通用交互分数。MapSatisfyBench 则通过行为链证据在地图服务决策中操作化满意度:它重建可恢复的隐含决策因素,区分硬约束和软偏好,并评估一个基于工具的空间响应是否增加了被接受响应的概率。

## 3 方法

参考图注 图2: 概述

相似文章

PlanBench-V: 面向视觉语言模型的空间规划地图基准

arXiv cs.CL

本文介绍了PlanBench-V,这是首个用于评估视觉语言模型在空间规划地图解读方面能力的综合性基准,包括一个专家标注的数据集和一个四维度评估框架。实验显示取得了显著进展,但也突显了在面向实施的任务中持续存在的挑战。

基准测试未衡量的:论自主智能体弃权能力的评估

arXiv cs.AI

本文认为,目前的自主智能体基准测试未能评估智能体是否应该继续执行任务,从而引入了'合规偏见'。作者提出了一个需要弃权的场景分类法,以及新的评估协议(Safety Rate, Usability Rate, Informed Refusal Rate),初步结果显示,不同模型家族的安全性与可用性之间存在可调节的权衡。