迭代优化搜索:用于评估电商中智能搜索架构的双智能体模拟框架
摘要
eBay的这篇论文提出了一个模块化的双智能体模拟框架,用于评估对话式购物助手架构,能够对响应器设计进行受控比较。关键发现包括:滚动窗口内存在速度上比意图提取内存快35%,系统性故障分析将故障率降低了62%。
arXiv:2606.12924v1 公告类型:新
摘要:我们提出了一个模块化的双智能体模拟框架,用于评估对话式购物助手架构。一个独立的买家智能体,配置了人物角色、任务和耐心等级,与一个可互换的响应器配对,该响应器集成了真实的电商搜索API。在实验中保持买家不变,可以在相同场景下对响应器设计进行受控比较。利用跨越14个人物角色组的2011个对话,我们得出了四个实证发现。首先,滚动窗口内存在所有质量指标上均优于意图提取内存,且每次查询速度快35%。其次,展示快速证据驱动迭代,对某一版本响应器的系统性故障分析可以实施针对性修复,使得整个数据集中的故障和接近故障率降低62%。第三,将响应器的LLM骨干网络从Gemini~2.5更换为Llama~3.3~70B,尽管架构相同,但性能下降了0.16至0.45点。最后,我们记录了前沿LLM评判者之间系统性的哲学分歧:Gemini奖励过程正确性,而Claude要求具体结果,尽管使用了相同的评估提示。
查看缓存全文
缓存时间: 2026/06/12 08:54
# 面向电商搜索架构评估的双智能体仿真框架
来源:https://arxiv.org/html/2606.12924
Jetlir Duraj∗, Jayanth Yetukuri, Shuang Zhou, Dhruv Varma, Rui Kong, Ishita Khan, Qunzhi Zhou eBay Inc\. \{jduraj, jyetukuri, shuazhou, dvarma, rukong, ishikhan, qunzhou\} @ebay\.com ∗通讯作者
###### 摘要
我们提出一个模块化的双智能体仿真框架,用于评估对话式购物助手架构。一个独立的买家智能体,配置了角色画像、任务目标和耐心等级,与一个可互换的响应器配对,该响应器集成了真实的电商搜索API。通过在实验中保持买家不变,我们能够在相同的场景下对不同的响应器设计进行受控比较。利用跨越14个角色分组的2,011段对话,我们得出了四个实证发现。首先,滚动窗口内存在所有质量指标上均优于意图提取内存,同时每次查询速度提升35%。其次,通过对某个响应器版本的系统性故障分析,能够实现有针对性的修复,使得整个数据集的失败和接近失败率减少62%,这展示了快速证据驱动的迭代过程。第三,将响应器的LLM骨干网络从Gemini 2.5切换到Llama 3.3 70B,尽管架构相同,但性能损失了0.16-0.45分。最后,我们记录到法官的选择本身就是一个影响深远的架构决策:在相同的提示词下,最先进的Gemini和Claude模型在30%的对话中评分相差两个或更多分数。
迭代优化搜索:面向电商搜索架构评估的双智能体仿真框架
Jetlir Duraj∗, Jayanth Yetukuri, Shuang Zhou, Dhruv Varma, Rui Kong, Ishita Khan, Qunzhi Zhou eBay Inc.\{jduraj, jyetukuri, shuazhou, dvarma, rukong, ishikhan, qunzhou\} @ebay.com∗通讯作者.
## 1 引言
构建能够可靠服务多样化买家需求的对话式购物助手,需要在投入生产部署之前,对架构选择、记忆策略、意图提取和响应生成进行受控评估。在理想情况下,我们会进行大规模的AB测试,覆盖所有相关买家类型,并具有足够的统计效力来得出结论。然而在实践中,覆盖买家类型的高效力AB测试很少能以低成本实现。当向客户群引入对话式购物等新技术时,很难预测技术部署后买家行为会如何演变。因此,覆盖多种买家类型的廉价、可复现的离线评估工具对于系统迭代和改进至关重要。一旦框架建立,考虑到LLM的访问成本,每次迭代的边际成本几乎为零。
两种标准方法存在不足。Beta用户测试能提供真实信号,但速度慢,无法在候选架构间回放相同场景,并且存在隐私约束。单智能体生成,即一个模型同时产生买家查询和助手响应,速度更快,但生成的对话与真实用户行为存在系统性差异:查询往往更正式,操作指令(如点击或加入购物车)更少见,并且生成的买家在提问前已经“知道”助手会返回什么。关键在于,单智能体生成无法测试响应器特定的架构特性,因为这些组件根本不参与生成过程。
我们提出了一个模块化的双智能体仿真系统来解决这两个局限性。买家智能体独立生成查询,仅对响应器实际返回的内容做出反应;响应器智能体使用真实的电商搜索API处理这些查询,并返回搜索结果页面(SRP)和/或对话指导(CHAT)。由于任何一个智能体都可以在不修改另一个的情况下被替换,因此可以在相同的买家场景下,以买家作为控制变量来比较不同的架构。买家的可配置性也允许系统性地测试买家行为在发布后可能如何演变。
利用该框架,我们处理了跨越14个买家角色分组的2,011段买家对话,进行了四个实验,展示了响应器架构设计和评估的迭代周期。我们的贡献是:
- •一个模块化的双智能体仿真系统,能够对响应器架构进行受控、可复现的比较(§3 (https://arxiv.org/html/2606.12924#S3))。
- •一个实证证明:更简单的滚动窗口内存可能优于显式的意图提取,同时降低每次查询的延迟(§5.1 (https://arxiv.org/html/2606.12924#S5.SS1))。
- •一项基于2,011段对话的故障系统性研究,直接实现对响应器架构的针对性修复,在表现最差的场景上恢复了++1.3-1.8分,并在整个语料库中将接近失败率降低了62%,验证过程仅需2天(§5.3 (https://arxiv.org/html/2606.12924#S5.SS3))。
- •证据表明底层LLM的贡献独立于架构:Llama 3.3 70B相对于Gemini 2.5性能损失0.16 - 0.45分(§5.4 (https://arxiv.org/html/2606.12924#S5.SS4))。
- •证据表明,前沿LLM法官在相同的提示词下嵌入了不同的评估理念:在CHAT有用性上完全一致的比例仅为13%,30%的对话显示出≥\geq2分的差异,且评估者之间的差距(≈\approx0.5分)超过了架构之间的差距,使得法官的选择成为一个影响深远的架构决策(§5.5 (https://arxiv.org/html/2606.12924#S5.SS5))。
## 2 相关工作
行为保真度评估。Wang等人(2025 (https://arxiv.org/html/2606.12924#bib.bib26))和Lu等人(2025 (https://arxiv.org/html/2606.12924#bib.bib24))通过衡量预测的下一个动作与历史用户日志的匹配程度来评估购物智能体,将真实的人类会话视为真实标准。这优化的是模仿而不是系统有效性:一个正确预测了下次点击的响应器不一定是一个真正帮助用户达成目标的响应器。我们的框架则将度量标准转向任务成功率,并且买家行为是每次运行新生成的,而非从日志中回放。
生产监控。Zhao等人(2025a (https://arxiv.org/html/2606.12924#bib.bib28))将人类反馈嵌入到在线检索飞轮中以防止知识衰减;Warne等人(2026 (https://arxiv.org/html/2606.12924#bib.bib27))在部署前使用仿真来对结构化“案例状态”推理架构的提示词变更进行压力测试。两者都将架构视为固定的,并优化其运行。我们的框架则是一个研发实验室:它在投入承诺之前测试架构,映射生产飞轮可能无法揭示的故障边界。
个性化和满意度评估。Zhao等人(2025b (https://arxiv.org/html/2606.12924#bib.bib29))和Sun等人(2025 (https://arxiv.org/html/2606.12924#bib.bib25))使用LLM智能体将个性化或满意度作为聚合指标进行评分。我们则评估架构设计选择,并揭示评估者本身就是一个设计选择(§5.5 (https://arxiv.org/html/2606.12924#S5.SS5))。
对话智能体的记忆架构。Shinn等人(2023 (https://arxiv.org/html/2606.12924#bib.bib14))提出了Reflexion,展示了带有自我反思的片段式记忆能提升智能体性能。Packer等人(2023 (https://arxiv.org/html/2606.12924#bib.bib15))证明了记忆压缩可以在减少上下文长度的同时保持性能。我们通过实证验证了更简单的滚动窗口内存在电商对话中能够胜过意图提取流水线。
智能体架构与工具使用。Schick等人(2023 (https://arxiv.org/html/2606.12924#bib.bib20))展示了模型可以通过演示学习使用外部API;Yao等人(2023 (https://arxiv.org/html/2606.12924#bib.bib21))提出了ReAct,交织推理和行动以改进工具使用。我们的响应器架构将工具使用与真实的搜索API集成,我们的实证比较证实了更简单的设计可以胜过更复杂的提取流水线。
LLM作为法官。使用LLM评估模型输出现在是标准实践(Zheng等人,2023 (https://arxiv.org/html/2606.12924#bib.bib9))。Dubois等人(2024 (https://arxiv.org/html/2606.12924#bib.bib16))展示了LLM法官在许多任务上可以达到与人类评判的一致性,而Chiang和Lee(2023 (https://arxiv.org/html/2606.12924#bib.bib17))记录了基于模型评估的系统性偏差。我们通过在同一购物对话上进行系统性的跨法官比较来扩展这一范式,表明选择法官等同于选择质量标准,并且由此产生的差距可能大到足以影响架构结论。
## 3 系统架构
### 3.1 双智能体设计
图1 (https://arxiv.org/html/2606.12924#S3.F1)展示我们构建的系统。协调器运行一个对话循环:它将买家查询转发给响应器,将响应返回给买家,记录对话轮次和各种动态对话统计信息,然后重复此过程,直到买家发送[TERMINATE\_SESSION]或耗尽轮次预算。关键的设计属性是智能体独立性:买家仅观察响应器的输出(SRP和/或CHAT);响应器仅观察买家的原始文本查询;并且任何一个组件都可以在不修改另一个的情况下被替换。这使得可以进行受控实验,其中只有响应器架构在运行之间发生变化。
买家智能体可配置:任务、角色、语气、耐心 协调器路由消息并记录所有轮次及对话统计数据 响应器智能体记忆、分类器、搜索API、响应数据库 查询 查询 {SRP, CHAT} {SRP, CHAT} 图1:双智能体仿真。任一智能体均可替换,实现受控架构比较。
### 3.2 买家智能体
买家是一个基于任务的循环中运行的Gemini 2.5 Pro推理模型(图2 (https://arxiv.org/html/2606.12924#S3.F2))。¹¹我们也尝试了使用OpenAI GPT-5.2和GPT-5.4作为买家LLM,但发现Gemini 2.5系列生成的买家语言模式更逼真。每个会话包含1-3个独立任务;每个任务指定一个购物目标、买家角色、沟通语气以及编码为max\_turns的耐心等级(不耐烦买家4轮;耐心买家10轮)。买家角色、耐心和沟通语气在同一买家会话的不同任务中不发生变化。买家LLM和买家配置集在所有实验中保持不变。因此,性能差异仅由响应器架构引起。
#### 记忆架构。
买家维护三个并行流:查询记忆(最近的查询,超过10个时自动压缩);SRP记忆(超过5个时保留最近3个);CHAT记忆(超过5个时保留最近3个)。在任务转换时,最后3轮对话会被注入到下一个任务的上下文中,从而实现自然的交接(例如“好的,换个话题”),而不是突然重置。
#### 查询生成流水线。
每一轮,买家(1)检查当前任务是否已终止或耗尽轮次预算;(2)从当前任务目标、角色/语气以及所有三个记忆流准备上下文;(3)构建包含可用动作和购物车命令语法的LLM提示词;(4)调用Gemini 2.5 Pro(温度0.2);(5)解析并验证响应;(6)更新记忆,如果任何阈值被超过则触发压缩。
#### 动作类型和购物车逻辑。
买家产生三种动作类型:搜索查询(自然语言或关键词风格)、物品点击(请求完整列表详情)、以及加入购物车(主要购买意图信号)。加入购物车操作仅针对当前SRP结果进行验证,以防止产生幻觉动作。任务在满意度达成、轮次预算耗尽或明确放弃时终止。
准备上下文(任务 + 记忆) 检查终止 / 轮次预算 新轮次 终止 构建LLM提示词 LLM调用(Gemini 2.5 Pro) 动作类型? 搜索查询 点击物品 加入购物车 itemId在最后SRP中? 丢弃 更新记忆+压缩(如需要) 返回查询字符串 ok limit search click cart no yes {SRP, CHAT}
图2:买家智能体查询生成循环。每一轮:检查预算,从三个记忆流(查询/SRPs/CHATs)准备上下文,调用LLM,产生一种动作类型。加入购物车操作将针对当前SRP进行验证。
### 3.3 响应器架构
所有响应器共享相同的流水线结构:一个记忆模块、一个通过查询理解分类器和查询重写器实现的编排层、返回实时eBay列表的真实搜索API集成,以及一个响应生成器。它们在记忆设计和底层LLM上有所不同。
#### Sys-A:意图追踪。
记忆存储原始查询以及LLM提取的意图陈述。在每次买家查询后,一个专用的LLM调用会提取结构化意图并生成一个压缩的搜索摘要,这为每次查询增加了一次额外的LLM调用。
#### Sys-B:滚动窗口。
记忆累积原始买家查询;一旦计数超过6,所有累积的查询将通过一次LLM调用被压缩成一个关键词摘要,然后积累重新开始。²²对压缩阈值进行系统性消融研究,并使用4、6、8和10的阈值重新运行相同的2,011段对话,这留待未来工作。没有每次查询的意图提取调用(与Sys-A不同);摘要LLM调用仅在压缩时触发,这使每次查询延迟比Sys-A降低了35%。
#### Sys-B+:针对Sys-B的定向修复。
针对故障模式进行了3项定向更改,详见§5.2 (https://arxiv.org/html/2606.12924#S5.SS2)。
#### Sys-C:Llama骨干网络。
与Sys-B相同的滚动窗口架构和编排;生成骨干网络从Gemini 2.5 Pro/Flash更改为Llama 3.3 70B Instruct。
## 4 实验设置
### 4.1 数据集
我们使用了一个包含2,011个买家对话配置的数据集,这些配置跨越14个由三个维度定义的分组:购物风格(信息寻求型、由宽到窄型、精确灵活型、精确严格型)、耐心(耐心:每个任务10轮;不耐烦:4轮)以及任务数量(每个会话1-3个任务)。表1 (https://arxiv.org/html/2606.12924#S4.T1)显示了完整分布。种子关键词查询来自涵盖所有垂类的eBay消费者搜索日志,并辅以主题和场合类查询;然后一个LLM将每个种子扩展成一个完整的买家任务,指定目标、上下文、约束和角色。设计14个分组结构是为了覆盖与智能搜索评估相关的买家原型。该数据集旨在说明框架的用途;评估特定架构的团队将构建针对他们自身垂类、时间窗口和查询模式的数据集,模块化框架可以很好地支持这一点。
| 风格 | 耐心 | 任务数N | 会话数 |
| :--- | :--- | :--- | :--- |
| 信息寻求型(无购买意图) | 耐心 | 1 | 200 |
| 由宽到窄型(探索,根据结果缩小范围) | 耐心 | 1 | 160 |
| | | 2 | 200 |
| | | 3 | 100 |
| 精确但灵活型(接受备选方案) | 耐心 | 1 | 160 |
| | | 2 | 200 |
| | | 3 | 100 |
| | 不耐烦 | 1 | 133 |
| | | 2 | 200 |
| | | 3 | 100 |
| 精确且严格型(精确匹配,不接受备选) | 耐心 | 1 | 25 |
| | 不耐烦 | 1 | 133 |
| | | 2 | 200 |
| | | 3 | 100 |
| **总计** | | | **2,011** |
表1:跨越14个分组的数据集分布。每个分组由购物/浏览风格、耐心等级和任务数量定义。五种组合因相关性较低而被排除(例如,多任务耐心严格型)。耐心买家每任务有10轮;不耐烦买家只有4轮。
以下是来自精确灵活耐心1任务分组的买家配置示例。
> 任务:“需要原装Apple Watch运动回环表带,但愿意考虑提供更好价值或成色极佳的替代品。” 耐心:max_turns = 10(耐心) 角色:知道自己想要什么但也能识别出良好替代品的经验丰富的买家。相似文章
QueryAgent-R1: 桥接查询生成与商品检索的电商查询推荐
QueryAgent-R1是一个智能体框架,利用强化学习和记忆抽象桥接电商中的查询生成与商品检索,在线测试中查询点击率提升2.9%,转化率提升3.1%。
Agent Bazaar:在多智能体市场中实现经济对齐
介绍Agent Bazaar,一个用于评估LLMs经济对齐的多智能体模拟框架,识别出算法不稳定性和Sybil欺骗等失败模式,并通过针对性强化学习训练出一个超越前沿模型的9B模型。
ShopGym:一个用于电子商务网络代理的现实模拟和可扩展基准测试的集成框架
ShopGym 是一个框架,它将实时的电子商务店面转换为自包含的沙盒商店,用于对网络代理进行真实、可控和可重复的基准测试,并包含涵盖七类技能的合成任务。
在线Agent-as-a-Judge:交互式智能体的情境生成评估
提出在线Agent-as-a-Judge评估框架,该框架利用世界内评估智能体主动生成情境来测试交互式社交智能体,在覆盖率和可靠性上优于被动方法。
Shopping Reasoning Bench:一个由专家编写的用于多轮对话购物助手的基准
购物推理基准(Shopping Reasoning Bench)是一个由专家编写的用于评估多轮对话购物助手的基准,包含525个任务和超过10,000个二元评判标准。对GPT、Claude和Gemini的评估显示,当前模型仅能达到57%至77%的通过率,揭示了在专家级购物推理方面存在显著差距。