面向智能体数据分析的无监督技能发现

Hugging Face Daily Papers 论文

摘要

DataCOPE 是一个面向数据分析智能体的无监督验证器引导的技能发现框架,它从探索轨迹中提取验证器信号,无需标注监督。在报告式与推理式数据分析任务上,分别提升了 9.71% 和 32.30% 的性能。

推理时技能增强提供了一种轻量级的方法,通过注入可复用的过程性知识来改进数据分析智能体,而无需更新模型参数。然而,发现有效的数据分析技能仍然具有挑战性,因为可靠的监督成本高昂,且成功标准因分析格式而异。这引出了核心问题:如何仅从无标签的探索中发掘可复用的数据分析技能。我们提出 DataCOPE,一种面向数据分析智能体的无监督验证器引导的技能发现框架。DataCOPE 从探索轨迹中提取验证器信号,并利用这些信号刻画轨迹间的相对质量或一致性。它迭代式地协调 Data-Analytic Agent(用于轨迹生成)、Unsupervised Verifier(用于信号提取)和 Skill Manager(用于对比技能蒸馏)。在报告式分析中,我们将验证器实例化为 Adaptive Checklist Verifier,它推导任务特定标准,根据可验证覆盖率为报告评分,并迭代优化检查表。在推理式分析中,我们将其实例化为 Answer Agreement Verifier,它根据答案一致性对轨迹进行分组,并使用自一致性作为辅助信号。我们在 Deep Data Research 的报告式分析和 DABStep 的推理式分析上评估 DataCOPE。在两种设置中,DataCOPE 均持续提升了留出集上相较于基线的性能。在四种模型设置下取平均,DataCOPE 在报告式和推理式任务上分别将平均分数提升了 9.71% 和 32.30%。
查看原文

相似文章

AgentCo-op: 基于检索的可互操作多智能体工作流合成框架

arXiv cs.AI

AgentCo-op 是一个基于检索的合成框架,用于从可复用的技能、工具和外部智能体组合可互操作的多智能体工作流。它使用类型化工件传递和有界自引导局部修复,在多个基准测试上取得了优异结果,并能在开放世界的基因组学任务中实现协作发现。

SkillFlow:自主智能体终身技能发现与演化基准测试

Hugging Face Daily Papers

SkillFlow 推出了一个涵盖20个任务家族共166项任务的基准测试,用于评估自主智能体在终身学习协议下,随时间推移发现、修复并维护技能的能力。实验揭示了主流模型之间存在显著的能力差距:Claude Opus 4.6 通过技能演化获得了显著提升,而其他模型的收益有限甚至为负。

SkillGen:经过验证的推理时代理技能合成

arXiv cs.LG

本文介绍了 SkillGen,这是一个多智能体框架,通过对比成功和失败的轨迹来合成和验证可复用的推理时大语言模型(LLM)代理技能。该方法确保技能可审计,并通过实证验证其对代理性能具有净正面影响。