多轮Text-to-SQL的记忆架构:基准测试与实证研究

arXiv cs.CL 论文

摘要

本文介绍了多轮Text-to-SQL基准测试EnterpriseMem-Bench,并评估了五种前沿模型在不同记忆架构下的表现,发现无状态模型在第三轮时崩溃,且工作记忆带来的提升最大。

arXiv:2605.26394v1 公告类型:new 摘要:多轮Text-to-SQL是企业分析的核心,但目前的评估主要局限于单轮场景。我们引入了EnterpriseMem-Bench,这是一个包含300个会话和1400轮的多轮Text-to-SQL基准测试,通过编程方式从三个企业领域(BIRD financial、SEC EDGAR、Northwind)构建,具有确定性的真实标签和每轮内存关键注释。我们评估了五种前沿模型——GPT-5 mini、GPT-5.2、Claude Sonnet 4.5、Sonnet 4.6和Opus 4.6——在五种内存条件下,通过三路消融实验分别隔离工作记忆窗口大小、情景检索和语义增强作为独立效应。所有Claude模型均启用扩展思维以保持与GPT推理模型的一致性。我们引入了记忆效益分数(MBS)作为每轮诊断指标。主要发现包括:(1)无状态多轮Text-to-SQL在所有五种模型下,即使在推理情况下,到第三轮时执行准确率降为零;(2)记忆架构的复杂性并不会单调地提高准确率——工作记忆占据主导,额外的组件会产生模型和数据依赖的效应,从+14到-16个百分点不等;(3)Claude Sonnet 4.6在SEC EDGAR上的表现比Sonnet 4.5低17-33个百分点,这是一个跨条件持续存在的代际退化;(4)在推理情况下,Claude的错误分布变成单峰——每个非正确轮次都是错误结果错误。我们发布了基准测试、智能体和评估代码。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:03

# 一项基准测试与实证研究 来源:https://arxiv.org/html/2605.26394
## 面向多轮Text-to-SQL的记忆架构:基准测试与实证研究
Ravi Kumar Tummalapenta Suman Addanki
LLM Suite Engineering Team, JP Morgan Chase & Co.
邮箱:{ravi.k.tummalapenta, suman.k.addanki}@jpmchase.com

###### 摘要
多轮Text-to-SQL(分析人员在对话轮次中细化结构化数据库查询)是企业AI部署的核心,然而Text-to-SQL系统仍然主要在单轮场景下进行评估。我们针对这一差距提出三个问题。首先,前沿大语言模型在没有显式记忆支持的情况下,是否会在多轮Text-to-SQL中表现出可测量的性能下降?其次,在常见的记忆架构中——工作记忆、情景记忆和语义记忆——哪些组件对多轮性能有实质性贡献,以及在什么边际成本下?第三,模型家族在利用记忆方面是否存在差异,这些差异是否可以归因于能力差距或评估不对称性?为了回答这些问题,我们引入了EnterpriseMem-Bench,这是一个多轮Text-to-SQL基准测试,包含300个会话和1400轮对话,这些会话是通过程序化方式从三个企业领域构建的:BIRD金融数据库、二十家财富500强公司的SEC EDGAR季度申报表,以及Northwind企业销售模式。每个会话都是从实时数据库配置文件确定性生成的,其真实SQL被编写为可参数化模板,并针对源数据库进行了验证;每一轮都标注了一个确定性的“记忆关键”标志,指示正确的SQL生成是否需要先前轮次中引入的信息。我们评估了五个前沿模型——GPT-5 mini、GPT-5.2、Claude Sonnet 4.5、Claude Sonnet 4.6和Claude Opus 4.6——在五种记忆条件下,其设计支持三向消融,独立分离工作记忆窗口大小、情景检索和语义增强的效果。所有Claude模型均在启用扩展思考的情况下进行评估,以保持与默认进行推理的GPT推理模型的方法论对等。我们引入了记忆收益分数(MBS)作为每轮诊断指标,针对无状态基线进行归一化。我们的实验得出四个主要发现。首先,无状态的多轮Text-to-SQL普遍崩溃:所有五个模型在第三轮记忆关键问题上的执行准确率均降至零,即使在扩展推理下也是如此。其次,最大的单一架构收益来自两轮工作记忆窗口;情景层和语义层提供的边际效果取决于模型和数据集,且通常为负值,这表明记忆架构的复杂度并不能单调地提高准确率。第三,在SEC EDGAR金融查询上观察到一个可复现的、特定模型的回归现象,其中Claude Sonnet 4.6在所有记忆条件下均比其前身(Sonnet 4.5)和同系列模型(Opus 4.6)低17–33个百分点——这一发现在扩展推理下仍然成立。第四,在推理条件下,Claude的误差分布变为单峰:序言错误、语法错误和运行时错误被消除,所有剩余失败均为错误结果错误。我们发布了EnterpriseMem-Bench以及会话生成流程、智能体实现和评估框架,以支持可复现性和后续工作。

面向多轮Text-to-SQL的记忆架构:基准测试与实证研究
Ravi Kumar Tummalapenta Suman Addanki
LLM Suite Engineering Team, JP Morgan Chase & Co.
邮箱:{ravi.k.tummalapenta, suman.k.addanki}@jpmchase.com
11footnotetext:本报告由摩根大通公司及其附属公司(“JPMC”)的LLM Suite团队编写,仅供参考,并非摩根大通研究部门的产品。摩根大通不作任何陈述、保证或承诺,并免除对本文所包含信息的完整性、准确性或可靠性的所有责任。本文档不作为投资研究或投资建议,也不作为购买或出售任何证券、金融工具、金融产品或服务的推荐、要约或招揽,也不得以任何方式用于评估参与任何交易的价值,并且不构成在任何司法管辖区或对任何人的招揽(如果在相关司法管辖区或对相关人士进行此类招揽将属违法)。

## 1 引言
一位股票研究分析师打开内部SQL助手询问:“请显示苹果公司2022年和2023年的收入。”系统生成了有效的SQL,执行并返回了两行结果。她阅读结果后追问:“哪一年更高?”第二个问题本身不包含任何实体、指标或筛选条件——它完全引用了上一轮的信息。一个将每个问题独立处理的系统无法回答这个问题。而一个保留上一轮信息的系统则能轻易回答。这种场景具有代表性而非例外。企业数据分析对话绝大多数是多轮的:追问构成了分析师工作流程的核心,而每次追问通常包含回指引用(“那家公司”)、省略(“那2024年呢?”)或对先前筛选条件的隐含延续。然而,绝大多数Text-to-SQL研究和基准测试仅在单轮场景下评估模型,此时每个问题都是独立完整的,记忆不发挥作用。当报告多轮性能时,通常只给出跨对话数据的聚合准确率;而Text-to-SQL系统究竟需要什么样的记忆架构以及成本如何这一具体架构问题,在很大程度上尚未得到研究。

本文通过一项受控实证研究来探讨这一差距。我们构建了一个专门用于记忆评估的基准测试——不仅仅是一个多轮基准测试,而且其会话经过设计,使得每一轮都带有一个确定性标志,指示回答问题是否需要先前轮次中引入的信息。我们定义了五种记忆条件,其架构复杂度逐渐递增,并且设计使得其中三个条件能够形成干净的独立效应消融:我们可以将工作记忆窗口大小的贡献与情景检索的贡献分离开来,并将两者与语义模式增强的贡献分离开来。我们评估了来自两个提供商、跨越多个世代的五个前沿大语言模型。我们引入了每轮诊断指标——记忆收益分数——将每种条件相对于其无状态基线进行归一化。本研究围绕三个研究问题展开:

##### 研究问题1. 在没有显式记忆支持的情况下,前沿大语言模型是否会在多轮Text-to-SQL中表现出可测量的性能下降?如果是,性能下降有多严重?是否依赖于模型家族、推理配置或数据集?

##### 研究问题2. 在标准的记忆架构中——工作记忆、情景检索和语义增强——哪些组件对多轮性能有实质性贡献?记忆架构的复杂度是否单调地提高准确率,还是存在递减或负面回报?

##### 研究问题3. 不同模型家族在记忆利用方面是否存在系统性差异?观察到的差异是否可以归因于模型之间的能力差距,还是由于不同提供商处理推理的方式不同而引入的评估不对称性?

这些问题决定了研究的设计。研究问题1需要一个无状态条件定义明确、记忆关键轮次可识别的基准测试,以便测量而非假设无状态基线的崩溃。研究问题2需要一个允许对单个组件进行干净消融的记忆架构空间,这排除了仅仅比较“全记忆”与“无记忆”的做法,并要求设计能够独立分离窗口大小、检索和增强。研究问题3要求在匹配的推理配置下跨提供商进行比较——这一要求突显了一个微妙的方法论问题:GPT-5模型家族在API层面默认进行推理,而Claude模型则不。如果初始评估不纠正这种不对称性,就可能将推理配置的效果错误地归因于能力差距。

我们的贡献有三点。首先,我们引入了EnterpriseMem-Bench,这是一个通过程序化方式构建的多轮Text-to-SQL基准测试,具有确定性真实值、每轮记忆关键标注以及基于层次的复杂度结构,涵盖300个会话和1400轮对话,跨越三个企业领域。其次,我们报告了一项系统的实证研究,涵盖五个前沿模型、五种记忆条件、三个数据集以及启用推理的Claude配置——总共35,000轮评估——产生了关于普遍的无状态崩溃、非单调的记忆架构收益、SEC EDGAR金融查询上可复现且特定模型的回归现象,以及推理下单峰误差分布的发现。第三,我们记录了关于跨API提供商的推理配置不对称性的方法论观察,并展示了其在跨提供商基准测试上的实证后果。

## 2 相关工作

### 2.1 单轮Text-to-SQL基准测试
现代Text-to-SQL评估文献主要基于两个基准测试。Spider(Yu et al., 2018 (https://arxiv.org/html/2605.26394#bib.bib10))引入了跨领域Text-to-SQL评估,涵盖200个具有复杂模式的数据库,并建立了组件匹配和执行准确率等指标,这些指标至今仍是标准。BIRD(Li et al., 2023 (https://arxiv.org/html/2605.26394#bib.bib4))将其扩展到具有真实世界数据特征的大型数据库,包括噪声值和外部知识需求,并建立了执行准确率(EX%)作为当代文献中的主要评估指标。这两个基准测试大多是单轮的:每个问题都是自包含的,可以独立回答。前沿提示方法——特别是DIN-SQL(Pourreza and Rafiei, 2023 (https://arxiv.org/html/2605.26394#bib.bib7)),它将Text-to-SQL分解为子任务并应用自我纠正——已将BIRD上的执行准确率提升至70%以上,导致一种广泛报道的看法,即Text-to-SQL对于生产部署来说基本是一个已解决的问题。

这种看法具有误导性,因为它没有反映分析师工作流程的结构。企业生产中的SQL对话绝大多数是相关问题的序列,而非独立的查询。强大的单轮性能并不意味着强大的多轮性能——这一观察直到最近才开始获得直接的实证关注。一项关于Text-to-SQL评估的全面调查(Hong et al., 2024 (https://arxiv.org/html/2605.26394#bib.bib2))确认,多轮场景相对于其实际重要性而言仍未得到充分研究。

### 2.2 多轮Text-to-SQL
此前有一些基准测试涉及多轮Text-to-SQL,但没有一个将记忆架构作为实验变量。SParC(Yu et al., 2019a (https://arxiv.org/html/2605.26394#bib.bib11))和CoSQL(Yu et al., 2019b (https://arxiv.org/html/2605.26394#bib.bib12))引入了早期的对话式SQL数据集,具有用户-系统对话结构;它们的重点在于共指和省略,而不是显式的记忆系统评估。MMSQL(Guo et al., 2024 (https://arxiv.org/html/2605.26394#bib.bib1))研究多轮问题类型(澄清、确认、纠正),但评估端到端准确率,而非分离记忆效应。BIRD-INTERACT(Huo et al., 2025 (https://arxiv.org/html/2605.26394#bib.bib3))是最接近的先前工作:它将BIRD扩展为多轮交互式场景,使用函数驱动的用户模拟器和涵盖CRUD操作的任务套件,并实证确认单轮评估高估了实际性能。然而,它没有定义或消融记忆架构——记忆隐含在模型接收的对话上下文中,而非设计变量。表1 (https://arxiv.org/html/2605.26394#S2.T1) 总结了这些基准测试的四个维度,这些维度推动了我们的工作。

表1:不同多轮Text-to-SQL基准测试在记忆架构研究相关维度上的比较。“记忆关键标注”表示基准测试是否标记了哪些轮次需要先前轮次的信息。“记忆架构消融”表示基准测试是否支持分离不同记忆组件的贡献。

### 2.3 面向LLM智能体的记忆架构
另一项平行工作研究面向LLM智能体的一般性记忆架构,而非专门针对Text-to-SQL。多层记忆架构(Zhang et al., 2024 (https://arxiv.org/html/2605.26394#bib.bib13))将智能体记忆分解为工作记忆(短期对话状态)、情景记忆(可检索的过去交互)和语义记忆(结构化知识或提示)——我们在本文中为Text-to-SQL操作化了这种分解。MemGPT(Packer et al., 2023 (https://arxiv.org/html/2605.26394#bib.bib6))将LLM上下文窗口框架为类似操作系统的虚拟内存,具有分层级别和显式分页。A-MEM(Xu et al., 2025 (https://arxiv.org/html/2605.26394#bib.bib9))引入了具有Zettelkasten启发式笔记构建和基于嵌入存储的动态链接的智能体记忆。长对话任务上的记忆评估(Maharana et al., 2024 (https://arxiv.org/html/2605.26394#bib.bib5))提供了测量对话记忆的主要基准测试之一;其问答协议促使我们使用执行准确率作为程序化正确性信号。

推理模型建立在链式思维工作(Wei et al., 2022 (https://arxiv.org/html/2605.26394#bib.bib8))的基础上,该工作表明中间步骤推理能提高复杂任务性能。Text-to-SQL提供了一个特别干净的记忆评估测试平台,因为正确性可以通过程序化方式检查:针对真实SQL的执行准确率是二值的、确定性的,且不需要人工判断。对通用对话数据的记忆能力评估是孤立地评估能力,而不是测量记忆对具有可独立验证正确性的下游任务的贡献。

### 2.4 定位
据我们所知,本文是首次将记忆架构类型和复杂度作为多轮Text-to-SQL中的主要实验变量。我们建立在BIRD-INTERACT的实证观察(即多轮性能落后于单轮性能)之上,但将问题从“多轮评估是否重要?”扩展到“需要哪种记忆架构,每个组件贡献了什么?”我们引入的三向消融允许将先前工作中混杂的效应——窗口大小、检索和增强——分离为独立贡献。我们引入的每轮记忆关键标注提供了先前多轮基准测试所不具备的基准测试内在控制。

## 3 问题形式化
本节正式定义本文后续内容所依赖的概念。我们首先在隔离状态下一次性介绍它们,然后在任何实验方法或结果依赖于它们之前。

### 3.1 多轮Text-to-SQL
设DD表示一个关系数据库,具有固定模式SS。一个自然语言问题qq由Text-to-SQL系统映射为SQL查询QQ;该查询针对DD执行,得到结果集R(Q,D)R(Q,D)。一个真实查询Q∗Q^{*

相似文章

学习检索:面向文本到SQL智能体的双层长期记忆

arXiv cs.CL

本文提出了MERIT,一种面向交互式文本到SQL智能体的动态多时域记忆检索框架,它使用情节级别和回合级别的记忆,并通过强化学习以及用于密集奖励的过程奖励模型优化的学习检索策略。在BIRD-Interact和Spider2-Snow上的实验表明,MERIT在成功率上优于静态和单时域动态基线,同时需要更少的交互轮次。

MEME:多实体与动态记忆评估

Hugging Face Daily Papers

MEME 基准测试在多实体和动态变化的条件下评估 AI 记忆系统,揭示了即便采用先进的检索技术,在依赖关系推理方面依然存在显著挑战。

T-Mem: 预见性记忆,而非归档式记忆

arXiv cs.CL

T-Mem 是一种新型长程对话记忆架构,能够同时支持描述性回忆和关联性回忆,涵盖查询与记忆共享表面特征的场景以及两者通过潜在语义弧相连的场景。该架构在 LoCoMo 和 LoCoMo-Plus 基准测试上达到了最先进水平。