Progress-SQL:通过渐进式奖励改进文本到SQL的强化学习

arXiv cs.CL 论文

摘要

Progress-SQL 提出了一种多轮强化学习框架,采用渐进式奖励用于文本到SQL,利用 Oracle 引导的诊断树提供密集的奖励信号,并在 BIRD 和 Spider 等基准上改进 SQL 查询生成。

arXiv:2606.06825v1 公告类型:新 摘要:强化学习近期在改进大型语言模型用于文本到SQL生成方面显示出潜力,但现有方法通常针对单个SQL状态定义的即时奖励进行优化。此类奖励为迭代式SQL修正提供的指导有限,且不足以捕捉多轮SQL优化中的改进。本文提出 Progress-SQL,一种多轮强化学习框架,采用渐进式奖励用于文本到SQL。我们的方法引入 Oracle 引导的诊断树(ODT),它将SQL查询抽象为子句级结构轮廓,并为下一轮优化提供诊断反馈。为了提供密集且稳健的奖励信号,我们将基于ODT的结构对齐与词汇对齐相结合,并定义了一种渐进式奖励,用于衡量从初始SQL到最终SQL的改进。我们进一步引入了进度延迟奖励(偏好更早的正确性)和执行状态奖励(鼓励从无效SQL中恢复)。在 BIRD、Spider 及 Spider 鲁棒性变体上的实验表明,我们的方法在主要评估和鲁棒性评估中均能持续提升文本到SQL的性能。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:20

# Progress-SQL:通过渐进式奖励改进文本到SQL的强化学习  
来源:https://arxiv.org/html/2606.06825  
Shihao Zhang, Xiaoman Wang, Yuan Liu, Yunshi Lan, Weining Qian  
华东师范大学  
shzhang@stu\.ecnu\.edu\.cn, yslan@dase\.ecnu\.edu\.cn  

###### 摘要  
强化学习近期在提升大语言模型进行文本到SQL生成方面展现出潜力,但现有方法通常优化基于单一SQL状态定义的一次性奖励。这种奖励为迭代式SQL修正提供的指导有限,且不足以捕捉多轮SQL优化中的改进。本文提出Progress-SQL,一种带有渐进式奖励的多轮强化学习框架,用于文本到SQL任务。我们的方法引入了一个Oracle引导的诊断树(ODT),它将SQL查询抽象为子句级别的结构轮廓,并为下一轮优化生成诊断反馈。为了提供密集且稳健的奖励信号,我们将基于ODT的结构对齐与词汇对齐相结合,并定义了一个渐进式奖励,用于衡量从初始SQL到最终SQL的改进。我们还引入了进度延迟奖励(奖励更早正确)和执行状态奖励(鼓励从无效SQL中恢复)。在BIRD、Spider及Spider鲁棒性变体上的实验表明,我们的方法在主要评估和鲁棒性评估中均能持续提升文本到SQL的性能。我们的代码已发布在:https://github.com/YooYoo67/ProgressSQL。

Progress-SQL:通过渐进式奖励改进文本到SQL的强化学习  
Shihao Zhang, Xiaoman Wang, Yuan Liu, Yunshi Lan††感谢通讯作者。,Weining Qian  
华东师范大学  
shzhang@stu\.ecnu\.edu\.cn, yslan@dase\.ecnu\.edu\.cn  

## 1 引言  
大语言模型(LLMs)显著推进了文本到SQL解析(Li等人,2024;2025)。近期的强化学习(RL)方法通过优化一次性奖励进一步改进了这些模型(Pourreza等人,2025b;Zhang等人,2025;Weng等人,2025;Ma等人,2026),其中单轮生成由一次性奖励衡量。该奖励仅基于SQL的执行结果计算。然而,这种奖励往往稀疏,对SQL生成提供的指导有限。这导致探索正确SQL(尤其是涉及连接和聚合的复杂SQL)的优化效率低下(Pourreza等人,2025b)。

请参见图注  
图1:奖励范式的比较。(a) 单轮生成:策略模型生成单个SQL,执行后接收奖励信号。(b) 多轮生成与渐进式奖励(本文):策略模型在ODT引擎引导下,通过T轮迭代优化其SQL。渐进式奖励衡量从第一个SQL到最终SQL的改进。

一项前沿研究SkyRL-SQL(Liu等人)引入了文本到SQL任务的多轮生成,其中LLM与引擎之间进行多轮交互。LLM针对一个问题生成一系列SQL。每轮中,LLM从引擎获取执行结果,并在下一轮生成中考虑该结果。然而,SkyRL-SQL基于最后一轮生成收集奖励,仍未脱离一次性奖励的限制。换句话说,一次性奖励不足以捕捉多轮生成的动态行为。

为了解决这一限制,我们提出了Progress-SQL,一种多轮RL框架,带有渐进式奖励,用于文本到SQL,如图1所示。具体而言,我们首先引入了一个Oracle引导的诊断树(ODT),它将SQL查询抽象为子句级别的结构轮廓,并为下一轮优化生成诊断反馈。通过在训练中比较预测的ODT与真实的ODT,模型可以根据结构化反馈修正其SQL预测。与一次性奖励不同,我们的渐进式奖励定义在SQL轨迹上,衡量最终SQL相对于初始SQL在结构和词汇对齐方面是否有改进。结合进度延迟奖励和执行状态奖励,该目标偏好那些高效改进、较早达到正确性以及从无效SQL预测中恢复的轨迹。我们在广泛使用的文本到SQL基准(包括BIRD和Spider)上评估了我们的RL方法。基于7B骨干网络,我们的方法在BIRD开发集、Spider开发集和Spider测试集上的执行准确率平均比基础模型提升8.5%,在Spider开发集上的测试套件准确率提升6.3%。与经过现有RL方法微调的LLM相比,我们的方法在微调后达到具有竞争力或更优的性能。我们的贡献总结如下:

- • 我们提出了Progress-SQL,一个用于文本到SQL的多轮RL框架。通过定义用于子句级别SQL诊断的ODT,Progress-SQL收集细粒度反馈以用于下一轮SQL生成。
- • 我们设计了一个渐进式奖励,明确衡量从初始SQL到最终SQL的改进,并辅以早期正确性和执行状态奖励,以实现高效且稳健的优化。
- • 在多个文本到SQL基准上的大量实验表明,我们的方法使用不同的基础模型持续提升了执行准确率和测试套件准确率。

## 2 相关工作  
### 2.1 基于大语言模型的文本到SQL  
由于LLM在各种NLP任务中的出色表现,我们观察到文本到SQL系统的方法论趋势从启发式规则和深度学习转向LLM(Zelle和Mooney,1996;Popescu等人,2003;Li和Jagadish,2014;Yu等人,2018a;Wang等人,2020)。早期阶段,基于LLM的文本到SQL系统严重依赖上下文学习(ICL)和结构化提示策略。DIN-SQL(Pourreza和Rafiei,2023)利用提示指令将复杂查询分解为子问题,而DAIL-SQL(Gao等人,2024)通过问题骨架匹配构建高效的小样本示例。更近期的流程如CHASE-SQL(Pourreza等人,2025a)和XiYan-SQL(Liu等人,2026)进一步结合了候选生成和选择策略,刷新了竞争性基准的准确率。除了提示,后训练已成为标准范式(Li等人,2024,2025),在精心策划的训练划分中提升了开源模型的文本到SQL性能。

### 2.2 文本到SQL的强化学习  
关于后训练过程,近期研究将文本到SQL框架为一个用强化学习优化的序列决策问题,其中奖励设计对衡量SQL质量至关重要。近期研究通过探索不同奖励来研究文本到SQL的RL。最直接的信号是二元执行准确率(EX),但由于仅在生成的SQL与真实执行结果匹配时才获得奖励,因此该信号非常稀疏。为了提供更密集的监督,Reward-SQL(Zhang等人,2025)引入了过程奖励模型用于逐步推理监督,而Reasoning-SQL(Pourreza等人,2025b)设计了SQL特定的部分奖励,如模式链接准确率、n-gram相似性和语法有效性。Graph-Reward-SQL(Weng等人,2025)进一步纳入了结构树匹配以捕捉逻辑对齐。SkyRL-SQL(Liu等人)将RL扩展到多轮SQL优化,但其奖励仍然来自最终SQL状态。然而,这些方法主要在单个或最终SQL状态上定义奖励,忽视了轨迹级别的修正行为。

## 3 预备知识  
### 3.1 问题定义  
文本到SQL任务可以形式化为一个语义解析问题,将自然语言问题翻译成可执行的SQL查询。形式上,令q=\{q\_1, q\_2, ..., q\_l\}表示自然语言问题,S表示相应的数据库模式(包括表、列和外键约束)。给定输入上下文x = (q, S),目标是生成一个目标SQL查询y = \{w\_1, w\_2, ..., w\_m\},该查询由一系列标记组成,并能从数据库引擎E中正确检索答案。

### 3.2 强化学习协议  
现有研究(Schulman等人,2017)将生成过程视为参数化策略π\_θ(y | x),该策略从预训练的指令微调LLM初始化。我们将其表示为参考策略π\_ref。文本到SQL任务可以通过强化学习协议求解,通过最大化以下目标来优化策略模型:
J(θ) = E_{x ~ P(x), y ~ π\_θ} [ R(y, y*) - β D_KL(π\_θ(·|x) ∥ π\_ref(·|x)) ],
其中x从文本到SQL数据集中采样,π\_ref是初始参考模型,π\_θ被迭代更新。KL散度惩罚防止更新的策略在训练期间退化其基本语言能力。奖励函数衡量生成的SQL查询y与真实SQL查询y*之间的距离。类似的协议与不同的RL算法(如GRPO (Shao等人,2024)、GSPO (Zheng等人,2025))也被广泛用于解决该任务。

### 3.3 一次性奖励设计  
在RL协议中,核心目标之一是最大化奖励R(y, y*),这可以视为生成SQL与真实SQL之间的一次性测量。我们注意到,已经提出了许多一次性奖励来解决文本到SQL任务,总结如下。

**执行匹配**。衡量生成SQL与真实SQL之间执行结果的一致性是一种直观的评估策略模型的方法。标准方法将其形式化为二元奖励(精确匹配为1,否则为0)(Pourreza等人,2025b)。由于奖励信号稀疏,近期研究通过引入基于匹配列和单元格比例的部分执行来改进奖励(Hao等人,2025;Papicchio等人,2025)。

**查询匹配**。为了构建更密集的奖励空间,研究人员纳入y与y*之间的静态结构相似性。Reasoning-SQL(Pourreza等人,2025b)计算提取的模式项之间的Jaccard相似度以及生成SQL与注释SQL之间的2-gram相似度,从而引导超越数据库执行之外的查询对齐。除了语义匹配,语法也在奖励中考虑(Pourreza等人,2025b;Ali等人,2025)。

**格式与过程正则化**。随着推理模型(例如DeepSeek-R1 (Guo等人,2025))的出现,强制特定的链式思维(CoT)行为已成为奖励设计的一部分。模型通过格式奖励被激励,将其推理过程封装在特定标签内(例如<思考>和<答案>)(Ma等人,2026;Papicchio等人,2025;Pourreza等人,2025b)。此外,为了防止奖励黑客行为和过度冗余,应用了标签计数(Papicchio等人,2025)和长度惩罚(Ma等人,2025)等正则化项来惩罚冗余推理。一些研究甚至将模式关键词、运行时日志纳入奖励(Berdnyk和Collery,2025;Ma等人,2026)。

## 4 方法  

请参见图注  
图2:Progress-SQL的整体框架——我们的多轮强化学习方法用于文本到SQL。策略模型迭代生成SQL查询,并在每次执行后接收基于ODT的诊断反馈。最终轨迹使用结合结构/词汇对齐改进、进度延迟奖励、执行状态转换奖励和格式奖励的渐进式奖励进行优化。

### 4.1 带ODT反馈的多轮生成  
标准的文本到SQL RL方法通常实现单轮生成,策略生成一次SQL查询,并从单个解码的SQL接收稀疏奖励。为了解决这一限制,我们将标准生成过程扩展到多轮SQL调试轨迹。受SkyRL-SQL(Liu等人)启发,我们允许策略模型基于前一轮的反馈迭代修正其SQL预测,如图2所示。值得注意的是,我们引入了Oracle引导的诊断树(ODT)作为每次尝试后的结构反馈,以优化下一轮生成。形式化地,给定用户问题q和数据库模式S,初始输入定义为:
x^{(1)} = (q, S)。
在第t轮,策略模型π\_θ考虑输入x^{(t)}生成一个新的SQL预测作为生成:
y^{(t)} ~ π\_θ(· | x^{(t)})。
对于x^{(t)},我们通过附加从先前预测生成的ODT结构反馈来构造输入:
f^{(t-1)} = ODT(y^{(t-1)}, y^*),
x^{(t)} = (q, S, y^{(1)}, f^{(1)}, ..., y^{(t-1)}, f^{(t-1)})。
生成持续进行,直到模型产生正确的可执行SQL或达到最大轮数。

相似文章

R^3-SQL: Ranking Reward and Resampling for Text-to-SQL

Hugging Face Daily Papers

# Paper page - R^3-SQL: Ranking Reward and Resampling for Text-to-SQL Source: [https://huggingface.co/papers/2604.25325](https://huggingface.co/papers/2604.25325) ## Abstract R$^3$\-SQL addresses inconsistencies in scoring functionally equivalent SQL queries and improves candidate recall through unified reward ranking and agentic resampling techniques\. Modern[Text\-to\-SQL](https://huggingface.co/papers?q=Text-to-SQL)systems generate multiple candidate[SQL queries](https://huggingface.co/papers

学习检索:面向文本到SQL智能体的双层长期记忆

arXiv cs.CL

本文提出了MERIT,一种面向交互式文本到SQL智能体的动态多时域记忆检索框架,它使用情节级别和回合级别的记忆,并通过强化学习以及用于密集奖励的过程奖励模型优化的学习检索策略。在BIRD-Interact和Spider2-Snow上的实验表明,MERIT在成功率上优于静态和单时域动态基线,同时需要更少的交互轮次。