标签
SkillAudit 引入了一个框架,通过成对轨迹审计和对比评估,在没有真实反馈的情况下进化 LLM 智能体技能。该框架在 89 个任务上实现了 73.9% 的平均任务奖励,优于基线方法。
VisualClaw是一种自我进化的多模态智能体,通过混合编码和技能进化降低部署成本,同时在多个基准测试中提高了视频问答的准确性。
SkillCAT是一个无需训练的LLM智能体技能自我进化框架,通过三个阶段解决单轨迹偏差、未经验证的合并和全语料库加载等问题:对比因果提取、评估增强进化和拓扑感知任务执行,在基准测试上实现高达40.40%的提升。
SkillChain自动化了基于图像的电商AI助手中按意图技能规范的生命周期,通过迭代优化和路由对齐提高了响应质量和用户参与度。
Bayesian-Agent 提出了一种框架,将可重复使用的技能和SOP视为假设,通过贝叶斯推理指导代理行为,并利用后验引导的框架优化提升任务性能。使用deepseek-v4-flash在多个基准上取得了显著改进。
Verilog-Evolve 是一个反馈驱动的框架,通过迭代优化大型语言模型生成的 Verilog 代码,利用功能仿真、综合和时序指标促进更优候选方案的选出,并跨任务演进可复用的修复技能。
作者分享了尝试多种Agent Memory实现后的心得,认为只有严格限制长度的条目级记忆(如Hermes)和基于轨迹沉淀的技能进化两种方法比较有用,其他图谱类或卡片类的方法效果不佳。
SkillsVote 是一个面向长周期LLM智能体的治理框架,通过结构化的收集、推荐和演化来管理可复用技能,在不更新模型的情况下提升了 Terminal-Bench 2.0 和 SWE-Bench Pro 的性能。
SkillFlow 提出了一种基于流程驱动的递归技能演化框架,用于基于大语言模型的智能体编排,采用 Tempered Trajectory Balance 来防止策略崩溃并提供透明的信用分配。在 14 个数据集上的实验表明,在问答、数学、代码和决策制定任务中,该框架显著优于基线方法。
SkillClaw 提出了一个框架,用于多用户 LLM 智能体系统中的集体技能进化,通过聚合交互和反馈,实现自主更新和跨用户知识转移,以提升整个生态系统的性能。