feedback-learning

#feedback-learning

使用推理代理的大规模反例引导学习

arXiv cs.LG ↗ · 2026-06-11 缓存

本文提出将反例引导学习用于LLM执行正则表达式归纳，其中验证器提供反例以优化候选表达式。该方法显著提高了具有挑战性任务上的样本效率和成功率，表明LLM可以从结构化反馈中受益，而不仅仅是将其视为额外数据。

0 人收藏 0 人点赞