ROSE: 一个面向意图的NL2SQL评估指标

Hugging Face Daily Papers 论文

摘要

ROSE是一个新颖的面向意图的NL2SQL评估指标,采用Prover-Refuter级联框架来评估语义正确性,无需依赖真实SQL,与人类专家的一致性比现有指标高24%。该论文解决了执行准确度的局限性,并对19个NL2SQL方法进行了重新评估,并公开发布了相关资源。

执行准确度(EX)是广泛使用的自然语言转SQL(NL2SQL)解决方案的评估指标,但其可靠性正在下降。它对语法变体敏感,忽略了问题可能有多种解释的事实,并容易被错误的真实SQL所误导。为解决这一问题,我们提出了ROSE,一个面向意图的指标,关注预测SQL是否回答了用户的问题,而不是与参考真实SQL的一致性。ROSE采用对抗性的Prover-Refuter级联:SQL Prover独立地针对用户意图评估预测SQL的语义正确性,而对抗性Refuter则使用真实SQL作为证据来挑战并完善这一判断。在我们的专家对齐验证集ROSE-VEC上,ROSE与人类专家的一致性最佳,在Cohen's Kappa指标上比次优指标高出接近24%。我们还对19个NL2SQL方法进行了大规模重新评估,揭示了四项有价值的洞察。我们发布ROSE和ROSE-VEC以促进更可靠的NL2SQL研究。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:29

论文页面 - ROSE: 一个意图为中心的NL2SQL评估指标

来源: https://huggingface.co/papers/2604.12988

摘要

ROSE是一个意图为中心的NL2SQL评估指标,使用Prover-Refuter级联来独立于参考SQL评估语义正确性,与人类专家有更好的一致性。

执行精度(EX)是评估自然语言到SQL(NL2SQL)解决方案效果的广泛使用的指标,但其可靠性正在下降。它对句法变化敏感,忽视了问题可能存在多种解释的事实,并且容易被错误的参考SQL误导。为了解决这个问题,我们引入了ROSE,一个意图为中心的指标,关注预测SQL是否回答了问题,而不是与参考范式下的参考SQL的一致性。ROSE采用对抗性的Prover-Refuter级联:SQL Prover独立评估预测SQL相对于用户意图的语义正确性,而对抗性Refuter使用参考SQL作为证据来质疑和细化这个判断。在我们专家对齐的验证集ROSE-VEC上,ROSE在Cohen’s Kappa方面实现了与人类专家的最佳一致性,相比次优指标性能提升近24%。我们还对19个NL2SQL方法进行了大规模重新评估,揭示了四个有价值的见解。我们发布了ROSE和ROSE-VEC以促进更可靠的NL2SQL研究。

查看arXiv页面 (https://arxiv.org/abs/2604.12988)查看PDF (https://arxiv.org/pdf/2604.12988)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.12988)

在你的agent中获取这篇论文:

hf papers read 2604.12988

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 0

没有模型链接到本论文

在模型README.md中引用arxiv.org/abs/2604.12988以从本页链接。

引用本论文的数据集 0

没有数据集链接到本论文

在数据集README.md中引用arxiv.org/abs/2604.12988以从本页链接。

引用本论文的Spaces 0

没有Space链接到本论文

在Space的README.md中引用arxiv.org/abs/2604.12988以从本页链接。

包含本论文的收藏 0

没有收藏包含本论文

添加本论文到收藏 (https://huggingface.co/new-collection) 以从本页链接。

相似文章

FD-NL2SQL:反馈驱动的临床NL2SQL系统,使用中不断改进

arXiv cs.CL

FD-NL2SQL是一个反馈驱动的自然语言转SQL系统,专门用于临床肿瘤学数据库,通过临床医生编辑和基于逻辑的SQL增强实现持续学习。该系统将自然语言问题分解为谓词,检索专家验证的范例,并综合可执行的SQL,具备持续学习能力。

RRISE:通过代理估计器进行鲁棒半径推断

arXiv cs.LG

RRISE引入了一种学习的代理估计器,将随机平滑认证鲁棒性的蒙特卡洛采样成本降低到单次前向传播,在将每次查询多达10^4次评估替换为一次前向传播的同时,精度保持在0.84个百分点以内。