通过代码重构实现小语言模型的高效技能落地
摘要
本文提出了RECENT框架,该框架通过重构基于代码的技能而非从头生成,利用小语言模型在具身智能体中实现高效的技能落地,其性能可与基于大语言模型的方法媲美。
arXiv:2606.07999v1 Announce Type: new
摘要:有效的技能落地对于在具身智能体中部署可复用技能至关重要,因为即使是细微的具身差异或环境差异也可能使整个技能不兼容。这一挑战在具身环境中尤为突出,代理必须在动态、部分可观测的环境中运行,且无法访问大型语言模型(LLM)。在此设定下,依赖LLM不切实际,而小语言模型(sLM)又不足以实现可靠长期控制所需的有效技能落地。我们提出RECENT,一个以重构为中心的代理框架,通过将技能语义与具身和环境特定的执行绑定解耦,实现了使用sLM的高效技能落地。通过将技能表示为可执行代码,RECENT保留技能控制结构中编码的语义意图,同时仅通过局部重构修改执行绑定来实现落地,而非从头生成代码。我们在动态环境中跨多种机器人具身的不同技能落地场景中评估RECENT,证明了在使用sLM部署时具有稳健的长期性能。在所有场景中,RECENT在基于sLM的代码即策略(CaP)方法中取得了最佳性能,并与基于LLM的CaP任务性能相匹配。
查看缓存全文
缓存时间: 2026/06/09 08:54
# 基于代码重构的小语言模型高效技能落地
来源:https://arxiv.org/html/2606.07999 Wonje Choi Saehun Chun Daehee Lee Jooyoung Kim Chaeun Lee Honguk Woo
###### 摘要
有效的技能落地对于在具身智能体中部署可复用技能至关重要,因为即使是具身或环境方面的微小差异也可能导致整个技能不兼容。这一挑战在具身场景中尤为突出,因为智能体必须在动态的、部分可观测的环境中运行,并且无法访问大语言模型(LLM)。在此设定下,依赖LLM是不切实际的,而小语言模型(sLM)对于实现可靠长程控制所需的有效技能落地而言仍然能力不足。我们提出了RECENT,一个以重构为中心的智能体框架,通过将技能语义与具身和环境特定的执行绑定分离开来,使得使用sLM进行高效技能落地成为可能。通过将技能表示为可执行代码,RECENT保留了技能控制结构中编码的语义意图,同时通过局部化的重构仅修改执行绑定来落地技能,而不是从头重新生成代码。我们在多个机器人具身动态环境中的多样化技能落地场景中评估了RECENT,证明了当与sLM一起部署时,其具有稳健的长程性能。在所有场景中,RECENT在基于sLM的代码即策略(CaP)方法中取得了最佳性能,并与基于LLM的CaP的任务性能相当。
具身智能,语言模型
## 1 引言
近期的具身控制系统越来越多地利用大语言模型(LLM)的规划能力,通过组合表示为神经子策略或代码片段的可学习技能来完成任务 (Brohan et al., 2023; Wang et al., 2023a)。技能本质上将功能语义(指定要实现什么)与可执行组件(确定如何在给定环境中由特定机器人实现该技能)耦合在一起。然而,由于机器人在形态、驱动和感知方面存在差异,任务环境在对象属性、物理约束和操作条件上也各不相同,技能的可执行性高度依赖于部署环境,这使得技能很难在不同场景间直接复用。因此,现有的技能表示难以明确地将功能语义与可执行组件分开,阻碍了部署时的技能落地,当执行环境发生变化时,需要重新学习或重新生成。这种设计会带来大量的计算开销,当部署条件改变时,通常需要额外的训练来重新学习神经子策略。将技能表示为可执行代码部分缓解了这一问题,因为它支持在测试时通过推理进行落地,而无需重新训练。然而,现有的基于代码的方法通常仍依赖重新生成整个技能实现,而不是仅调整部署特定的组件,同时保留整体技能结构。这种重新生成的开销在容量受限的设备上尤为突出,因为这类设备无法保证在线访问大规模LLM,且技能落地必须使用设备端的计算资源,这使得LLM推理变得不切实际。另一方面,小语言模型(sLM)能够实现高效推理,但推理能力有限 (Choi et al., 2024),而依赖重新生成的现有技能落地方法对动态环境仍然不合适。
为解决这些挑战,我们提出了RECENT,一个以重构为中心的智能体框架,使得sLM能够执行高效的技能落地。当不变的语义意图与部署特定的执行绑定分离时,技能落地就变得高效,从而可以跨不同部署上下文引导落地。通过将技能表示为定义良好的可执行代码,RECENT保留了在功能逻辑中的语义意图,这些逻辑可以跨具身和环境差异复用,同时将执行绑定隔离为可按需修改的局部组件。因此,sLM在部署时只进行局部化编辑,通过轻量级的代码修改解决具身不匹配问题,而无需进行与从头重新生成代码相关的广泛推理。环境变化则通过就地适应来处理,其中结合执行时反馈,在不频繁中断执行的情况下逐步修补正在执行的代码。图1 对比了现有依赖低效全量重新生成的技能落地方法与我们的框架(通过局部化代码重构实现高效技能落地)在代码层面的差异。
参见图标题
**图 1: 关键概念对比:(上方) 现有方法中的技能落地流程与 (下方) 我们的以重构为中心的技能落地流程。**
具体而言,我们采用一种技能本体论来声明式地编码技能语义、机器人能力及其关系,为可复用的技能表示提供统一基础。在本体论的指导下,我们通过LLM构建了 (i) 一个离线技能仓库,其中语义意图被显式编码为可执行技能代码,并附有描述功能需求和适应线索的元数据。通过在部署前先在通用机器人平台上验证该语义意图,后续的技能落地不再需要推理复杂的任务语义,而可以专注于解决执行绑定。RECENT中的部署时技能落地通过 (ii) 基于本体论的推理处理具身不匹配问题,并通过 (iii) 就地适应处理环境变化,两者均通过基于填充中间(FIM)(Bavarian et al., 2022) 的局部化代码重构实现,而非端到端的从头重新生成。具身不匹配问题适合使用sLM进行编辑,因为相关的执行绑定可以通过技能需求与目标机器人能力之间的本体层级比较被明确识别,从而将落地约束为部署前的局部代码编辑。相比之下,环境变化通过将适应推迟到执行时刻来处理,在此期间,sLM在单元级有效性检查下主动修补尚未执行的代码片段,在不改变全局任务语义的前提下保持可执行性。
我们在部署约束下使用sLM,在多样化的技能落地场景中评估了RECENT,这些场景涵盖多种机器人具身、动态环境以及容量受限的设备设置。具体来说,我们在CoppeliaSim (Rohmer et al., 2013) 和 Genesis (Genesis Authors, 2024) 中设计了多种跨机器人具身的长程机器人操作任务。在所有场景中,使用sLM Qwen2.5-Coder-7B (Hui et al., 2024) 部署的RECENT,优于使用相同大小蒸馏sLM CodeV-R1 (Zhu et al., 2025) 实例化的代码即策略(CaP)基线 (Liang et al., 2023),在任务成功率(SR)上实现了58.81个百分点的提升,在落地开销(GO)上减少了99.09个百分点,每个任务的平均执行中断次数(EI)仅为0.71(接近零),空闲时间(IT)相对减少了93.29%。其性能与使用GPT-5.2-Codex (OpenAI, 2025) 的基于LLM的CaP相当,SR仅相差6.58个百分点,同时在其余指标上平均优于后者,尽管在部署约束下运行,如表格1所示,它在GO上实现了57.81个百分点的显著提升,EI和IT分别平均减少了22.95%和77.52%。我们的贡献总结如下:
- • 我们提出了RECENT,一个以重构为中心的智能体框架,使得在部署约束下使用sLM进行高效技能落地成为可能,从而无需依赖大规模LLM推理即可实现实用的长程控制。
- • 我们将技能表示为可执行代码,将不变的语义意图与部署特定的执行绑定分离,从而通过局部化代码重构而非从头重新生成来实现技能落地。
- • 我们在多种技能落地场景中评估了RECENT,并展示了其在SR、GO、EI和IT方面优于基于蒸馏sLM的CaP的一致性能提升,同时与基于LLM的CaP相当。
## 2 相关工作
#### 基于LLM的具身控制。
在具身控制中,近期的工作越来越多地利用LLM的推理能力,在预定义的技能策略之上进行高层任务规划 (Huang et al., 2022; Brohan et al., 2023; Song et al., 2023)。基于LLM在代码编写方面的最新进展 (Chen et al., 2021; Roziere et al., 2023; Hui et al., 2024; Guo et al., 2024; Zhu et al., 2024),具身策略可以以程序形式表示和执行,通常称为*代码即策略* (Liang et al., 2023; Huang et al., 2023b,a; Burns et al., 2024; Li et al., 2024; Mu et al., 2024; Vemprala et al., 2023; Singh et al., 2022; Wang et al., 2023b)。这些方法不将指令映射到固定的预定义技能集,而是提示LLM生成类似Python的程序,直接调用感知和运动API,从而实现具身智能体的运动级控制。与现有在部署时依赖大规模LLM的方法不同,我们的工作专注于在部署约束下实现可靠的长程具身控制,方法是将技能表示为可复用代码,并使sLM能够通过局部化代码重构而非从头重新生成来落地这些技能。
#### 技能落地。
在具身智能体中,技能是时间上扩展且可复用的行为模式,封装了低级控制,支持更高层次的规划和组合以解决复杂任务 (Kober & Peters, 2009; Rozo et al., 2020; Kroemer et al., 2021)。参数化方法通常通过重新训练或微调神经策略来落地这些技能,将抽象技能表示映射到具体的机器人动作,同时将任务语义与执行细节纠缠在学习到的策略中 (Xu et al., 2023; Wang et al., 2024; Doshi et al., 2024)。最近,基于LLM的具身智能体将技能表示为函数级代码,其中任务级决策和执行细节在单个程序中联合生成 (Tziafas & Kasaei, 2024; Sarch et al., 2023; Li et al., 2025a)。我们关注的是如何结构化技能以支持高效落地。具体来说,我们将语义意图与执行上下文分离,从而保留功能逻辑,只调整执行特定的组件。这种分离通过将语义意图保留在功能逻辑中,并将部署时的落地限制为对执行绑定的局部编辑,减轻了sLM的推理负担。因此,技能落地自然简化为重构执行特定的代码片段,而不是从头重新生成整个技能实现。
#### 程序化控制。
LLM的最新进展激发了人们对程序化控制的日益增长的兴趣,智能体在其中生成、执行和修复代码以解决复杂任务 (Xia & Zhang, 2023; Yang et al., 2025; Bouzenia et al., 2025; Xia et al., 2025)。通过显式暴露控制流和中间程序结构,与端到端学习的控制策略相比,这些方法促进了结构化推理、更好的泛化能力和组合性。程序化控制也已应用于具身智能体,使其能够在感知和控制模块上生成和执行代码 (Liang et al., 2023; Huang et al., 2023b)。与数字环境中的程序化智能体不同,具身代码智能体必须在部分可观测性下推理连续状态并与物理世界交互 (Ahn et al., 2025; Meng et al., 2025; Ying et al., 2025)。在具身设置中,生成的代码通常以闭环方式协调感知、决策和驱动,其中连续控制和环境反馈对于处理不确定性和长程依赖至关重要。与现有方法不同,RECENT在执行过程中进行就地适应以应对环境变化,从而在不中断程序执行的情况下实现连续控制。
## 3 问题形式化
我们将具身任务形式化为 τ = (S, A, G, T),其中 S 和 A 分别表示状态空间和动作空间。由于部分可观测性 (Sutton & Barto, 2018),在每个时间步 t,智能体接收一个观测 o_t,它提供关于潜在状态 s_t ∈ S 的不完整信息。环境动态由转移函数 T: S × A → S 定义。我们用 G ⊂ S 表示目标状态集合,并将每个任务 τ 定义为由多个个体目标 g ∈ G 组成的复合目标。
为了解决任务 τ,智能体在离线状态下获得一组参考技能 X = {χ_1, ..., χ_K},其中每个技能 χ_k 是一个时间上扩展的动作,并且可能无法在目标部署设置中直接执行。我们的目标是在一组任务上优化 sLM π_sLM相似文章
Formal Skill: 面向高效精准LLM智能体的可编程运行时技能
本文介绍了Formal Skill,这是一种面向LLM智能体的运行时原生抽象,它将可重用流程编码为可执行状态机,配有JSON元数据、Python执行器和钩子控制的逻辑。还介绍了一个名为FairyClaw的开源实现,在Harness-Bench上展示了具有竞争力的性能,且减少了token使用量。
SkillLens:面向成本高效型大模型智能体的自适应多粒度技能复用
本文提出了 SkillLens,这是一种用于大模型智能体自适应多粒度技能复用的分层框架,在基准任务中展示了更高的准确性和成本效益。
技能并非通用:面向LLM智能体的模型感知技能对齐
本文提出MASA框架,该框架在不修改模型权重的情况下,通过分层进化和模型条件重写器将技能适配到每个LLM骨干网络,相比基线方法最高提升25.8个点。
LatentSkill:从上下文文本技能到LLM智能体的权值潜技能
LatentSkill将文本技能转换为存储在权值空间中的LoRA适配器,减少上下文开销,同时保持LLM智能体的模块化和可组合性,在ALFWorld和Search-QA基准测试上取得了显著改进。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。