MMG2Skill:智能体能否从真实世界指南中提炼出自我进化的技能?
摘要
MMG2Skill通过闭环学习将网络上的过程性指南转化为智能体可执行的技能,在GUI操控、游戏玩法和纸牌游戏任务中提升了性能,宏平均提升了+12.8到+25.3个百分点。
查看缓存全文
缓存时间: 2026/06/04 03:41
论文页面 - MMG2Skill: 智能体能否从野外指南中提炼出自我进化的技能?
来源:https://huggingface.co/papers/2606.01993 作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
MMG2Skill 框架将基于网页的程序化指南转化为可通过闭环学习执行的高技能,从而在 GUI 控制、游戏玩法以及纸牌对弈等任务中提升智能体性能。
网络上丰富的程序化知识对于帮助智能体解决长周期任务具有巨大潜力。然而,这类知识通常具有多模态、异构、含噪声的特点,并且隐含地假设了人类执行者,因此难以直接作为智能体所需的技能使用。为弥合面向人类的指南与智能体可执行技能之间的鸿沟,我们形式化地定义了从指南到技能的学习问题(https://huggingface.co/papers?q=guide-to-skill%20learning):将野外指南转化为可执行技能,并从智能体可观测的轨迹中持续改进这些技能。为评估现有智能体在此任务上的能力,我们引入了 MMG2Skill-Bench——首个针对该问题设计的基准测试。我们进一步提出 MMG2Skill,这是一个闭环框架(https://huggingface.co/papers?q=closed-loop%20framework),它将指南编译为可编辑的技能,在执行过程中让固定的视觉语言模型(VLM)智能体依赖这些技能,并通过轨迹级根因反馈(https://huggingface.co/papers?q=trajectory-level%20root-cause%20feedback)修正技能,而无需使用基准评分。在涉及六个 VLM 骨干网络的 GUI 控制、开放结局游戏玩法以及策略性纸牌对弈中,MMG2Skill 在每一个模型-领域设置下均持续优于普通基线智能体,实现了跨骨干网络 +12.8 至 +25.3 个百分点的宏平均增益(https://huggingface.co/papers?q=macro-average%20gains)。消融研究(https://huggingface.co/papers?q=Ablation%20studies)表明,直接使用原始指南提示智能体会降低性能,而结构化技能构建与轨迹驱动的修正是实现所观察到的改善的必要条件。在成功可推断的任务中,若成功信号标定得当,基于分析器的提前停止(https://huggingface.co/papers?q=analyzer-based%20early%20stopping)可进一步防止后期性能倒退,并节省 25% 至 53% 的尝试次数。
查看 arXiv 页面(https://arxiv.org/abs/2606.01993) 查看 PDF(https://arxiv.org/pdf/2606.01993) GitHub1(https://github.com/NJU-LINK/MMG2Skill) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01993)
在你的智能体中获取这篇论文:
hf papers read 2606\.01993
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型
0
暂无模型链接本文
请在模型 README.md 中引用 arxiv.org/abs/2606.01993 以将其链接到此页面。
引用本文的数据集
0
暂无数据集链接本文
请在数据集 README.md 中引用 arxiv.org/abs/2606.01993 以将其链接到此页面。
引用本文的 Space
0
暂无 Space 链接本文
请在 Space README.md 中引用 arxiv.org/abs/2606.01993 以将其链接到此页面。
包含本文的收藏集
1
相似文章
SkillGen:经过验证的推理时代理技能合成
本文介绍了 SkillGen,这是一个多智能体框架,通过对比成功和失败的轨迹来合成和验证可复用的推理时大语言模型(LLM)代理技能。该方法确保技能可审计,并通过实证验证其对代理性能具有净正面影响。
从原始经验到技能消费:模型生成智能体技能的系统研究
本文系统评估了语言智能体的模型生成技能,涵盖经验生成、提取和消耗的完整生命周期,发现技能平均有益但存在显著的负迁移,从而引出一种提高技能质量的元技能。
MMSkills:面向通用视觉智能体的多模态技能
本文介绍了MMSkills,这是一个用于表示、生成和使用视觉智能体多模态程序性知识的框架,结合了文本程序与视觉状态卡和关键帧,并在GUI和游戏类视觉智能体基准测试中展示了改进效果。
SkillOpt:自我进化智能体技能的执行策略
SkillOpt 引入了一种系统化的文本空间优化器,用于智能体技能。该优化器将技能训练为智能体的外部状态,具有稳定的更新和零部署推理开销,在多个基准测试和执行环境中实现了卓越性能。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。