SEIF:用于指令遵循的自我演化强化学习
摘要
本文介绍了 SEIF,这是一个自我演化的强化学习框架,通过迭代难度自适应以及教官和跟随者组件的协同训练,增强大语言模型(LLM)的指令遵循能力。
查看缓存全文
缓存时间: 2026/05/12 07:29
论文页面 - SEIF:用于指令遵循的自我进化强化学习
来源:https://huggingface.co/papers/2605.07465 发布于 5 月 8 日
·
提交者 https://huggingface.co/dd12345789
rain (https://huggingface.co/dd12345789) 于 5 月 12 日
摘要
一种自我进化的强化学习框架,通过迭代式难度适应和教师与跟随者组件的联合训练,增强大型语言模型的指令遵循能力。
指令遵循是大型语言模型 (LLM) 的基本能力,但持续提升这一能力仍具有挑战性。现有方法通常要么依赖于昂贵的人工监督或强大的教师模型,要么依赖于使用静态难度指令的自我对弈训练,这些指令无法随着模型能力的提升而进化。为了解决这些局限性,我们提出了 SEIF(Self-Evolving Reinforcement Learning for Instruction Following),这是一个用于增强 LLM 指令遵循能力的自我进化框架。SEIF 形成了一个自我进化闭环,从而提升模型的指令遵循能力,其中指令难度的进化与模型能力的进化相互促进。SEIF 由四个角色组成:一个 Instructor(教师),负责生成日益具有挑战性的指令;一个 Filter(过滤器),负责移除冲突或无效的指令以确保数据质量;一个 Follower(跟随者),负责学习遵循进化后的指令;以及一个 Judger(裁判),为强化学习提供奖励信号。Instructor 和 Follower 在过程中交替训练并共同进化。在多种模型规模和架构上的实验表明,SEIF 始终能提升指令遵循性能,显示出很强的泛化性。进一步的分析揭示了性能提升的来源,并确定了在开放式任务上进行自我进化的有效训练策略:充分的早期训练以建立坚实的基础,随后进行适度的晚期训练以减轻过拟合并实现更好的最终性能。代码和数据已公开于 https://github.com/Rainier-rq1/SEIF。
查看 arXiv 页面 (https://arxiv.org/abs/2605.07465) 查看 PDF (https://arxiv.org/pdf/2605.07465) GitHub2 (https://github.com/Rainier-rq1/SEIF) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.07465)
引用此论文的模型 0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2605.07465 即可从此页面链接它。
引用此论文的数据集 0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.07465 即可从此页面链接它。
引用此论文的 Spaces 0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2605.07465 即可从此页面链接它。
包含此论文的收藏夹 0
没有收藏包含此论文
将此论文添加到收藏夹 (https://huggingface.co/new-collection) 即可从此页面链接它。
相似文章
SEAL: 智能体与学习环境的协同共演化
SEAL提出了一个闭环框架,用于联合演化LLM智能体及其训练环境,利用诊断引导的标签对齐双方。仅用400个训练样本,它就在多轮工具使用任务上取得了显著提升,表现出更好的鲁棒性和分布外迁移能力。
SEAL: 智能体与学习环境的协同共进化
SEAL 是一个用于交互式工具使用智能体的闭环共进化框架,通过利用在线策略轨迹和回合级诊断同步策略与环境更新,解决了智能体-环境不匹配问题。
SEAGym: 自进化LLM代理的评估环境
SEAGym是一个新的评估环境,用于自进化LLM代理,它衡量代理框架在训练、验证、测试、重放和成本记录上的更新,提供关于进化过程的互补信号。
EvoTrainer:面向自主智能体强化学习的LLM策略与训练框架协同进化
EvoTrainer提出了一种自主训练框架,通过经验反馈协同进化LLM策略与训练框架,在数学推理、代码生成以及长期软件工程任务上超越了人工设计的强化学习基线。
改进前沿大语言模型中的指令层级
OpenAI提出了一种利用指令层级任务的训练方法,通过教导模型根据信任级别(系统 > 开发者 > 用户 > 工具)正确优先处理指令,以提高大语言模型的安全性和可靠性。该方法通过强化学习使用名为IH-Challenge的新数据集,应对提示注入攻击并增强安全可控性。