SkillChain：闭环实现基于图像的电商AI助手的技能演化

arXiv cs.CL 2026/06/12 04:00 论文

skill-evolution e-commerce ai-assistants image-based llm intent-routing production-feedback

摘要

SkillChain自动化了基于图像的电商AI助手中按意图技能规范的生命周期，通过迭代优化和路由对齐提高了响应质量和用户参与度。

arXiv:2606.12984v1 公告类型：新摘要：基于图像的AI助手现已大规模部署在电商平台上，用户上传的单张图片可能触发根本不同的意图：商品搜索、风格推荐、视觉百科或实用工具调用，每种意图都要求不同的响应格式、工具调用和领域知识。若缺乏按意图的行为约束，基于LLM的系统会混淆这些异构模式，无法达到领域质量标准，同时意图空间的广度与动态性使得人工工程不可行。为解决此问题，我们提出SkillChain，它闭环了技能演化的生产反馈循环，通过三个阶段自动化技能生命周期：Skill Creator（从任务规范和轨迹中引导启动）、Route Optimizer（路由对齐）以及Body Refiner（通过双路径LLM-Judge评估进行迭代技能主体优化）。部署于生产级电商图像助手后，SkillChain显著提升了整体响应质量，在结构合规性和内容质量方面提升最为显著；为期一周的在线A/B实验进一步证实了用户在参与度、内容消费和长期留存方面的显著提升。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:51

# SkillChain：闭环技能演化，赋能基于图像的电商AI助手
来源: https://arxiv.org/html/2606.12984
Yimin Hu¹, Mengtao Xu¹, Hao Guo¹, Yuheng Song¹, Xiaoyong Zhu¹,†, Bo Zheng¹,†
¹阿里巴巴集团 {hym408321, mengtao.xmt, gh225907, songyuheng.syh}@taobao.com, {xiaoyong.z, bozheng}@alibaba-inc.com

###### 摘要

基于图像的AI助手现已大规模部署于电商平台。用户上传一张图片可能触发截然不同的意图：商品搜索、风格推荐、视觉百科或实用工具调用，每种意图都要求独特的响应格式、工具调用方式和领域知识。若缺乏按意图定义的行为约束，基于LLM的系统会混淆这些异构模式，难以达到领域质量标准；而意图空间的广度和动态变化又使人工工程管理不可行。为解决此问题，我们提出SkillChain。该系统通过三个环节闭环生产反馈，实现技能的自动化演化生命周期：**Skill Creator**从任务规格和轨迹中引导生成初始技能；**Route Optimizer**进行路由对齐；**Body Refiner**通过双路LLM-Judge评估迭代精炼技能体。部署于生产级电商图像助手后，SkillChain显著提升了整体响应质量，尤其在结构合规性和内容质量方面提升最为突出；为期一周的在线A/B实验进一步证实了用户参与度、内容消费和长期留存率的显著提升。

## 1 引言

电商平台越来越多地部署由大语言模型驱动的基于图像AI助手 (Brown et al., 2020; OpenAI et al., 2024; Touvron et al., 2023)，允许用户上传照片并获得个性化回复。视觉输入携带天然模糊的意图：同一张图片可能引发商品搜索、风格对比、百科查询或工具调用，每种回复都要求不同的格式、工具集和领域词汇。

这种多样性带来了三个相互关联的生产挑战。(C1) **缺乏按意图的行为规范**。如果没有针对每种意图的显式约束，LLM会生成自由形式的响应，混入不兼容的格式（如在百科回复中嵌入商品卡片）、错误调用工具，并无法满足领域质量标准。(C2) **分布漂移导致路由偏移**。视觉意图模式不断演化；设计良好的意图到规范的映射会随时间退化，而持续人工调整在规模上不可行。(C3) **缺乏生产反馈导致规范退化**。创建时固定的规范会悄然积累缺陷，缺乏自动化诊断和修复机制。

我们提出SkillChain，通过**技能( Skills) **（声明式的按意图规范，涵盖工具调用、富媒体组合、写作约束和领域知识）解决C1–C3，包括三个耦合阶段：**阶段1 (Skill Creator)** 从任务规范和用户轨迹中引导生成技能，并通过人工反思门控质量 (C1)；**阶段2 (Route Optimizer)** 挖掘路由失败，并应用更新/合并/丢弃操作使描述与演化流量重新对齐 (C2)；**阶段3 (Body Refiner)** 运行双路评估和跨样本归因，识别并修复技能体缺陷 (C3)。

部署于生产级电商图像助手后，SkillChain在所有评估配置中取得了最高的聚合LLM Judge分数，在结构合规性和内容质量方面提升显著；在线A/B结果证实，与生产阶段2基线相比，用户参与度和留存率有显著提升。关键的是，该流水线是**单向**的：每个阶段针对非重叠组件，因此修正不会反向传播，这是以往任何技能系统都未实现的特性。

我们的主要贡献包括：

1. 识别路由和行为漂移作为特定阶段的生产技能失效模式，每个模式由专门的链环节解决。
2. 提出SkillChain，这是首个部署的基于图像框架，在一个自演化的电商生命周期中闭环所有三个技能反馈回路，并具备阶段单调质量保证。
3. 在五个视觉意图类别上的生产验证确认了严格的累加阶段增益，并提供了基于部署基线的在线A/B证据。

## 2 相关工作

基于LLM的自主代理在多个领域取得了快速进展 (Wang et al., 2024b; Xi et al., 2023)；我们将相关工作组织为与SkillChain最相关的四个方向。

#### 技能生命周期与自演化代理系统

Voyager (Wang et al., 2024a) 和 Ghost in the Minecraft (Zhu et al., 2023) 率先为开放世界探索建立了可重用代码块和子目标技能库。在此基础上，AutoSkill (Yang et al., 2026), SkillForge (Liu et al., 2026b), SkillClaw (Ma et al., 2026), CoEvoSkills (Zhang et al., 2026), 和 EvoSkill (Alzubi et al., 2026) 通过失败驱动精炼、轨迹聚合或协同演化替代验证器来从交互轨迹中演化技能；Trace2Skill (Ni et al., 2026), XSkill (Jiang et al., 2026a), 和 WebXSkill (Wang et al., 2026b) 提取轨迹池；SkillRL (Xia et al., 2026), ARISE (Li et al., 2026), 和 SkillOS (Ouyang et al., 2026) 应用基于RL的策展；SkillX (Wang et al., 2026a), Graph of Skills (Liu et al., 2026a), 和 SkillNet (Liang et al., 2026) 构建结构化技能库；双粒度技能库 (Tu et al., 2026) 为agentic RL维护粗到细的技能抽象。Jiang et al. (2026b) 和 Summers et al. (2024) 论证代理技能构成一个独立于工具使用的能力类别，跨任务和模态泛化。SkillChain 在三个关键方面有所不同：(1) 技能是**声明式**的行为规范，而非可执行代码或记忆；(2) 增加了所有先前工作中缺失的显式**路由优化**阶段；(3) 在工业级电商规模上得到验证。

#### 工具增强型LLM

ReAct (Yao et al., 2023) 和 Reflexion (Shinn et al., 2023) 确立了推理-动作交错和口头自我改进用于工具使用；ToolFormer (Schick et al., 2023) 和 Gorilla (Patil et al., 2024) 进一步将LLM工具使用扩展到大型API库。相比之下，SkillChain 管理的是**规范**，控制工具调用并从生产反馈中持续精炼它们。

#### 自动提示优化

OPRO (Yang et al., 2024), APE (Zhou et al., 2023), DSPy (Khattab et al., 2024), 和 TextGrad (Yuksekgonul et al., 2024) 通过LLM反馈或基于文本的微分优化提示；ExpeL (Zhao et al., 2024) 将执行轨迹提取到可重用模板中。SkillChain 共享数据驱动改进的动机，但操作于结构化、意图特定的技能体，并利用生产路由信号。

#### LLM作为裁判评估

G-Eval (Liu et al., 2023), MT-Bench (Zheng et al., 2023), Constitutional AI (Bai et al., 2022), 和 HELM (Liang et al., 2023) 建立了基于LLM的质量评估、AI驱动的约束执行和全面的多指标评估，所有这些都为我们的四维评分设计提供了依据。我们采用LLM作为裁判范式，但将评估锚定在技能体约束上，使得反馈可直接用于技能体精炼。

图1: SkillChain三阶段框架概览。(a) **Skill Creator** 通过工程师循环从任务规范和用户轨迹中引导生成技能，然后在部署前通过人工反思门控质量。(b) **Route Optimizer** 持续挖掘生产中的路由失败，并应用更新/合并/丢弃操作，使技能描述边界与实际流量保持对齐。(c) **Body Refiner** 通过双路流水线评估响应，并聚合跨样本信号，驱动技能体的迭代精炼。

## 3 方法论

生产中的技能会沿三个独立维度退化：初始化质量、路由准确性和行为合规性。由于控制路由的**描述(d)** 和控制响应质量的**体(b)** 在架构上解耦，它们的反馈回路顺序闭环且互不干扰，体现了SkillChain的**单向链**设计。

遵循 Jiang et al. (2026b)，一个**技能**是一个元组 s=(d, b, Cₛ, O_d)：**d** 控制路由，**b** 指定格式、工具和约束规则，**Cₛ** 提供静态知识和示例，**O_d** 列出推理时调用的动态算子。所有技能在**技能库** B_k 中进行版本管理；SkillChain 通过三个耦合阶段自动化完整生命周期，如图1所示。

### 3.1 阶段1: 技能创建

#### LLM驱动的引导

阶段1从任务规范、用户轨迹（即表征目标意图的真实交互序列）以及当前技能库 B_k 中引导生成技能，用于知识复用。一个扮演Skill Creator的LLM根据这些输入生成初始草稿，并利用从 B_k 检索到的参考技能 (Lewis et al., 2020) 作为上下文示例。然后通过**工程师循环** (Wu et al., 2023) 对草稿进行精炼，针对采样查询验证静态组件和动态算子，直到所有声明通过正确性检查。

#### 人工反思门控

在部署前，优化后的技能会针对一组精心挑选的查询样本进行测试，并由领域专家评审其体内容质量 (Ouyang et al., 2022)；只有通过审批的技能才会版本进入 B_{k+1}。此门控可以捕获程序化检查无法捕捉的体级别缺陷，但它无法预测完整生产流量分布下的路由漂移——这正是阶段2专门解决的范围问题。不同的意图类型对技能体施加了结构上不同的约束；表1总结了这些按意图的需求。

表1: 阶段1中应用的场景特定技能设计原则。

### 3.2 阶段2: 路由优化

随着流量的演化，创建时精确的技能描述会与骨干MLLM匹配的用户意图 (Qwen Team, 2025) 逐渐偏离对齐。

#### 路由失败分析

为了检测并修复这种漂移，一个裁判LLM将采样路由决策与人工标注的真实标签进行比较，收集失败案例进入路由失败池。然后一个LLM分类器为每个失败分配三种根本原因标签之一 (附录E.1)：**边界模糊**（描述未能清晰包含或排除该查询）、**缺失技能**（没有现有技能覆盖该意图）、或**视觉解析错误**（上报给上游解析器）。在我们的部署中，边界模糊占失败的大部分；一旦初始技能库覆盖了核心意图类别，缺失技能的情况很少见，这证实了描述边界维护是主要的路由成本。

#### 迭代描述更新

阶段2在保留的验证集上迭代运行，只有当 F1(B_{k+1}) ≥ F1(B_k) 时才接受更新，这提供了单调质量保证。根据挖掘到的失败模式，每一轮对 B_k 应用以下三种操作之一 (Yang et al., 2026)：

**更新 (Update):** B_{k+1} = B_k 且 d_s ← d_s′  
**合并 (Merge):** B_{k+1} = (B_k \ {s_i, s_j}) ∪ {s′}  
**丢弃 (Discard):** B_{k+1} = B_k \ {s}  

### 3.3 阶段3: 技能体精炼

即使路由已修复，技能体仍会在生产规模下暴露出缺陷：格式违规、内容缺失、工具误用。单个样本的反馈过于嘈杂，无法直接采取行动：每次查询的内容和措辞变化会导致任何单一裁判评估的高方差，针对单个分数采取措施可能导致过度纠正个别案例而忽略系统性问题。

#### 双路评估

一个**双路评估**流水线覆盖互补的失效模式：一条基于规则的路经用于确定性结构检查，一条LLM裁判路径 (Liu et al., 2023; Zheng et al., 2023) 在四个维度上对每个响应进行评分：工具调用合理性 (TCR)、卡片组合合规性 (CCC)、内容质量 (CQ) 和约束遵守度 (CA)，并附带自然语言理由，将反馈锚定在技能体约束上 (附录E.2)。单一路径无法捕获完整的失效空间。

#### 跨样本归因

阶段3不针对单个分数采取行动，而是将每个裁判分数离散化为三个等级（好/一般/差），并为每个技能在所有归属响应上计算各维度的等级分布；如果一个技能在维度 d 上的“差”等级比例超过阈值，即被标记为待精炼。

相似文章

COLLEAGUE.SKILL：通过专家知识蒸馏实现自动化AI技能生成

arXiv cs.AI

本文介绍COLLEAGUE.SKILL，一个开源系统，能够从异构轨迹中自动提炼基于人的AI技能，形成可检查、可纠正、可移植的技能包，使LLM代理能够携带有限的人类专业知识和交互风格表征。

Skill1：通过强化学习实现技能增强型智能体的统一进化

Hugging Face Daily Papers

Skill1 是一个统一框架，通过共享的任务结果目标，训练单一策略以协同进化技能选择、利用与蒸馏。在 ALFWorld 和 WebShop 上的实验表明，该框架在复杂任务环境中优于现有的基线方法。

SkillNet：创建、评估并连接AI技能

Papers with Code Trending

SkillNet 提供了一个开放的基础设施，通过统一的本体系统地积累和迁移 AI 技能，在多个领域展现了智能体性能的显著提升。

@op7418: https://x.com/op7418/status/2065232309310427565

X AI KOLs Timeline

This article discusses the concept of Skills in the AI agent ecosystem, arguing that Skills are more than prompts—they are packaged capabilities that externalize human expertise into reusable workflow units. The author shares design principles and case studies from building popular Skills.

SkillAdaptor: 基于轨迹的LLM智能体自适应技能