SEIF：用于指令遵循的自我演化强化学习

Hugging Face Daily Papers 2026/05/08 00:00 论文

摘要

本文介绍了 SEIF，这是一个自我演化的强化学习框架，通过迭代难度自适应以及教官和跟随者组件的协同训练，增强大语言模型（LLM）的指令遵循能力。

指令遵循是大语言模型（LLM）的一项基本能力，但持续提升这一能力仍然具有挑战性。现有方法通常要么依赖于昂贵的人类监督或强大的教师模型，要么依赖于使用静态难度指令的自我博弈训练，而这些指令无法随着模型能力的提升而演化。为了解决这些局限性，我们提出了 SEIF（Self-Evolving Reinforcement Learning for Instruction Following，用于指令遵循的自我演化强化学习），这是一个用于增强 LLM 指令遵循能力的自我演化框架。SEIF 形成了一个封闭的自我演化循环，以改善模型的指令遵循能力，其中指令难度的演化与模型能力的演化相互促进。SEIF 包含四个角色：一个生成越来越具挑战性指令的教官（Instructor），一个移除冲突或无效指令以确保数据质量的过滤器（Filter），一个学习遵循演化后指令的跟随者（Follower），以及一个为强化学习提供奖励信号的评判者（Judger）。教官和跟随者在整个过程中交替训练并共同演化。在多个模型规模和架构上的实验表明，SEIF 一致地提升了指令遵循性能，显示出强大的通用性。进一步的分析揭示了性能提升的来源，并确定了一种针对开放式任务的自我演化有效训练策略：在早期阶段进行充分的训练以打下坚实基础，随后在后期阶段进行适度的训练以减轻过拟合并实现更好的最终性能。代码和数据已公开在 https://github.com/Rainier-rq1/SEIF。

查看原文

查看缓存全文

缓存时间: 2026/05/12 07:29

论文页面 - SEIF：用于指令遵循的自我进化强化学习

来源：https://huggingface.co/papers/2605.07465 发布于 5 月 8 日

提交者 https://huggingface.co/dd12345789

rain (https://huggingface.co/dd12345789) 于 5 月 12 日

摘要

一种自我进化的强化学习框架，通过迭代式难度适应和教师与跟随者组件的联合训练，增强大型语言模型的指令遵循能力。

指令遵循是大型语言模型 (LLM) 的基本能力，但持续提升这一能力仍具有挑战性。现有方法通常要么依赖于昂贵的人工监督或强大的教师模型，要么依赖于使用静态难度指令的自我对弈训练，这些指令无法随着模型能力的提升而进化。为了解决这些局限性，我们提出了 SEIF（Self-Evolving Reinforcement Learning for Instruction Following），这是一个用于增强 LLM 指令遵循能力的自我进化框架。SEIF 形成了一个自我进化闭环，从而提升模型的指令遵循能力，其中指令难度的进化与模型能力的进化相互促进。SEIF 由四个角色组成：一个 Instructor（教师），负责生成日益具有挑战性的指令；一个 Filter（过滤器），负责移除冲突或无效的指令以确保数据质量；一个 Follower（跟随者），负责学习遵循进化后的指令；以及一个 Judger（裁判），为强化学习提供奖励信号。Instructor 和 Follower 在过程中交替训练并共同进化。在多种模型规模和架构上的实验表明，SEIF 始终能提升指令遵循性能，显示出很强的泛化性。进一步的分析揭示了性能提升的来源，并确定了在开放式任务上进行自我进化的有效训练策略：充分的早期训练以建立坚实的基础，随后进行适度的晚期训练以减轻过拟合并实现更好的最终性能。代码和数据已公开于 https://github.com/Rainier-rq1/SEIF。

查看 arXiv 页面 (https://arxiv.org/abs/2605.07465) 查看 PDF (https://arxiv.org/pdf/2605.07465) GitHub2 (https://github.com/Rainier-rq1/SEIF) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.07465)

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.07465 即可从此页面链接它。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.07465 即可从此页面链接它。

引用此论文的 Spaces 0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.07465 即可从此页面链接它。

包含此论文的收藏夹 0

没有收藏包含此论文

将此论文添加到收藏夹 (https://huggingface.co/new-collection) 即可从此页面链接它。

SEIF：用于指令遵循的自我演化强化学习

论文页面 - SEIF：用于指令遵循的自我进化强化学习

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏夹 0

相似文章

SEAL: 智能体与学习环境的协同共演化

SEAL: 智能体与学习环境的协同共进化

SEAGym: 自进化LLM代理的评估环境

EvoTrainer：面向自主智能体强化学习的LLM策略与训练框架协同进化

改进前沿大语言模型中的指令层级

提交意见反馈