ROSE: 一个面向意图的NL2SQL评估指标
摘要
ROSE是一个新颖的面向意图的NL2SQL评估指标,采用Prover-Refuter级联框架来评估语义正确性,无需依赖真实SQL,与人类专家的一致性比现有指标高24%。该论文解决了执行准确度的局限性,并对19个NL2SQL方法进行了重新评估,并公开发布了相关资源。
查看缓存全文
缓存时间: 2026/04/20 08:29
论文页面 - ROSE: 一个意图为中心的NL2SQL评估指标
来源: https://huggingface.co/papers/2604.12988
摘要
ROSE是一个意图为中心的NL2SQL评估指标,使用Prover-Refuter级联来独立于参考SQL评估语义正确性,与人类专家有更好的一致性。
执行精度(EX)是评估自然语言到SQL(NL2SQL)解决方案效果的广泛使用的指标,但其可靠性正在下降。它对句法变化敏感,忽视了问题可能存在多种解释的事实,并且容易被错误的参考SQL误导。为了解决这个问题,我们引入了ROSE,一个意图为中心的指标,关注预测SQL是否回答了问题,而不是与参考范式下的参考SQL的一致性。ROSE采用对抗性的Prover-Refuter级联:SQL Prover独立评估预测SQL相对于用户意图的语义正确性,而对抗性Refuter使用参考SQL作为证据来质疑和细化这个判断。在我们专家对齐的验证集ROSE-VEC上,ROSE在Cohen’s Kappa方面实现了与人类专家的最佳一致性,相比次优指标性能提升近24%。我们还对19个NL2SQL方法进行了大规模重新评估,揭示了四个有价值的见解。我们发布了ROSE和ROSE-VEC以促进更可靠的NL2SQL研究。
查看arXiv页面 (https://arxiv.org/abs/2604.12988)查看PDF (https://arxiv.org/pdf/2604.12988)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.12988)
在你的agent中获取这篇论文:
hf papers read 2604.12988
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型 0
没有模型链接到本论文
在模型README.md中引用arxiv.org/abs/2604.12988以从本页链接。
引用本论文的数据集 0
没有数据集链接到本论文
在数据集README.md中引用arxiv.org/abs/2604.12988以从本页链接。
引用本论文的Spaces 0
没有Space链接到本论文
在Space的README.md中引用arxiv.org/abs/2604.12988以从本页链接。
包含本论文的收藏 0
没有收藏包含本论文
添加本论文到收藏 (https://huggingface.co/new-collection) 以从本页链接。
相似文章
AgentNLQ:一种通用的自然语言到SQL代理
本文介绍了AgentNLQ,一个用于自然语言到SQL转换的多代理系统,通过模式增强和自校正编排器在BIRD基准测试上达到了78.1%的语义准确率。
RAS:基于上下文学习的反思增强缩放方法用于可执行Cypher查询生成
本文介绍了反思增强缩放(RAS)方法,该方法利用失败Cypher查询的执行反馈,通过上下文学习迭代优化查询生成,在多个数据集和模型上将执行错误率降低了41-50%。
FD-NL2SQL:反馈驱动的临床NL2SQL系统,使用中不断改进
FD-NL2SQL是一个反馈驱动的自然语言转SQL系统,专门用于临床肿瘤学数据库,通过临床医生编辑和基于逻辑的SQL增强实现持续学习。该系统将自然语言问题分解为谓词,检索专家验证的范例,并综合可执行的SQL,具备持续学习能力。
SOMA-SQL:通过合成日志与执行探测解决NL-to-SQL中的多源歧义
Soma-SQL提出了一种自主方法,利用合成查询日志和歧义驱动的执行探测,解决自然语言到SQL翻译中的多源歧义问题,在执行准确率上比最先进的基线平均提升13%。
RRISE:通过代理估计器进行鲁棒半径推断
RRISE引入了一种学习的代理估计器,将随机平滑认证鲁棒性的蒙特卡洛采样成本降低到单次前向传播,在将每次查询多达10^4次评估替换为一次前向传播的同时,精度保持在0.84个百分点以内。