从自由能视角看后训练中能力激发与能力创造的区别

arXiv cs.AI 论文

摘要

本文提出了一个基于自由能视角的框架,以区分大型语言模型后训练中的能力激发与能力创造,论证指出监督微调(SFT)和强化学习(RL)通常是对现有行为进行重新加权,而非创造新行为。

arXiv:2605.08368v1 公告类型:新论文 摘要:关于大型语言模型后训练的讨论通常将监督微调(SFT)视为模仿,而将强化学习(RL)视为发现。但这一区分过于粗糙。关键在于训练过程是否提高了预训练模型原本就能产生的行为的概率,还是改变了模型实际上能够达到的行为范围。我们认为,后训练研究应当区分能力激发(capability elicitation)与能力创造(capability creation)。我们引入了“可及支撑集”(accessible support)的概念,使这一区分具备可操作性:即模型在有限资源下实际上能够产生的行为集合。在该支撑集内对行为进行重新加权属于能力激发;而改变支撑集本身则对应于能力创造。我们通过自由能视角进一步阐述这一论点。SFT和RL均可被视为对预训练参考分布进行重新加权,仅外部信号有所不同:演示信号定义了SFT的低能行为,而奖励信号定义了RL的低能行为。当更新过程接近基础模型时,其主要效果是局部重新加权,而非能力创造。在此框架下,核心问题不再是如何将后训练归类为SFT或RL,而是其重新加权的是模型已能触及的行为,还是通过搜索、交互、工具使用或纳入新信息等方式扩展了模型可触及的行为空间。
查看原文
查看缓存全文

缓存时间: 2026/05/12 07:11

# 关于在训练后期区分能力引导与能力构建:一种自由能视角
来源:https://arxiv.org/abs/2605.08368
查看 PDF (https://arxiv.org/pdf/2605.08368)

> 摘要:有关大型语言模型训练后期的争论通常将有监督微调(SFT)视为模仿,将强化学习(RL)视为发现。但这一区分过于粗糙。关键在于,训练过程是增加了预训练模型原本就能产生的行为的概率,还是改变了模型在实际上能够达到的状态。我们认为,训练后期的研究应区分“能力引导”与“能力构建”。我们通过引入“可达支持集”(accessible support)的概念,使这一区分得以具体化:该集合指模型在有限预算下实际能够产生的行为集合。在训练后期,若仅在该支持集内对行为进行重新加权,则属于能力引导;而改变支持集本身则对应于能力构建。我们通过一种自由能视角来展开这一论点。SFT 和 RL 都可以被视为对预训练参考分布的重新加权,只不过它们依赖不同的外部信号。示范信号为 SFT 定义低能量行为,而奖励信号为 RL 定义低能量行为。当更新后的模型与基础模型保持接近时,主要效果是局部重新加权,而非能力构建。在此框架下,核心问题不再是训练后期被表述为 SFT 还是 RL,而是它是否对模型已能触及的行为进行重新加权,亦或是通过搜索、交互、工具使用或融入新信息,扩展了模型可及的行为空间。

## 提交历史

来自:Yuhao Li [查看邮箱 (https://arxiv.org/show-email/00adf26b/2605.08368)] **[v1]** 2026年5月8日,星期五,18:23:25 UTC(55 KB)

相似文章

ReAD:面向大型语言模型的强化引导能力蒸馏

arXiv cs.CL

本文提出了 ReAD,这是一种强化引导的能力蒸馏框架,通过考虑大型语言模型中的跨能力迁移来优化 token 预算。与现有基线相比,该方法在提升下游效用的同时,减少了有害溢出。

能量生成建模:基于Lyapunov能量匹配的视角

arXiv cs.LG

本文提出了一种基于能量的生成模型的统一框架,将密度输运表述为以KL散度为Lyapunov函数的非线性控制问题。它推导了有限步停止准则,并展示了非线性控制理论工具如何应用于静态标量能量模型。

基于跨模型熵的无标签强化学习

arXiv cs.LG

提出跨模型熵(CME)作为一种无标签奖励信号,用于大型语言模型的强化学习后训练,无需真实验证器或人类偏好标签即可实现开放式指令遵循。