标签
本文提出将反例引导学习用于LLM执行正则表达式归纳,其中验证器提供反例以优化候选表达式。该方法显著提高了具有挑战性任务上的样本效率和成功率,表明LLM可以从结构化反馈中受益,而不仅仅是将其视为额外数据。