multi-turn-rollout

标签

Cards List
#multi-turn-rollout

Progress-SQL:通过渐进式奖励改进文本到SQL的强化学习

arXiv cs.CL · 2026-06-08 缓存

Progress-SQL 提出了一种多轮强化学习框架,采用渐进式奖励用于文本到SQL,利用 Oracle 引导的诊断树提供密集的奖励信号,并在 BIRD 和 Spider 等基准上改进 SQL 查询生成。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈