MOSAIC:结构化代理智能与组合的模块化编排框架

arXiv cs.AI 论文

摘要

MOSAIC 提出了一种用于自动化数据科学的结构化代理框架,该框架基于记忆驱动的模型选择和工作流构建,并在金融时间序列任务上得到验证。其性能优于 AutoML 及其他基于代理的基准方法。

arXiv:2606.00708v1 公告类型:新发布 摘要:自动化数据科学本质上是一个结构化的模型选择问题。解决方案需要为特定任务选择数据转换、特征表示、架构、训练流程、评估协议以及优化策略。AutoML 系统能够自动化这一过程的部分环节,但其搜索范围通常局限于预定义的流水线、模型和超参数空间。基于 LLM 的代理通过检索、代码生成和执行反馈提供了更高的灵活性,但其建模决策往往缺乏结构、难以验证且不易复用。为此,我们提出了 \textsc{MOSAIC}(Modular Orchestration for Structured Agentic Intelligence and Composition,结构化代理智能与组合的模块化编排框架),一种用于记忆驱动模型选择和工作流构建的结构化代理框架。给定任务与数据集后,\textsc{MOSAIC} 会构建语义任务画像,检索历史案例与源代码模块,并生成蓝图:一种中间表示,其中指定了所选建模组件、组件组合方式、接口约束以及执行需求。该蓝图将模型选择转化为分阶段、基于上下文搜索的过程,并将基于 LLM 的代码生成锚定在检索到的证据上,而非无约束的合成。候选模型通过执行结果进行验证,并利用诊断反馈、训练轨迹、任务指标以及一种基于失败感知的强化学习策略进行优化。我们在金融时间序列预测与生成场景中实例化了 \textsc{MOSAIC},这些场景要求模型同时满足预测准确性、分布保真度、执行可靠性以及下游金融标准(如风险与尾部行为)的要求。与 AutoML 及基于代理的基线方法的对比实验表明,\textsc{MOSAIC} 在任务性能、执行成功率及决策可追溯性方面均有提升,从而证明了将自动化数据科学视为结构化、可复用且基于执行结果的模型选择这一思路的价值。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:48

# MOSAIC:面向结构化智能体智能与组合的模块化编排
来源:https://arxiv.org/abs/2606.00708  
作者:Yifan Bao (https://arxiv.org/search/cs?searchtype=author&query=Bao,+Y), Xinyu Xi (https://arxiv.org/search/cs?searchtype=author&query=Xi,+X), Xinyu Liu (https://arxiv.org/search/cs?searchtype=author&query=Liu,+X), Wen Ge (https://arxiv.org/search/cs?searchtype=author&query=Ge,+W), Lei Jiang (https://arxiv.org/search/cs?searchtype=author&query=Jiang,+L), Kevin Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+K), Raad Khraishi (https://arxiv.org/search/cs?searchtype=author&query=Khraishi,+R), Yihao Ang (https://arxiv.org/search/cs?searchtype=author&query=Ang,+Y), Anthony K.H. Tung (https://arxiv.org/search/cs?searchtype=author&query=Tung,+A+K), Lukasz Szpruch (https://arxiv.org/search/cs?searchtype=author&query=Szpruch,+L), Hao Ni (https://arxiv.org/search/cs?searchtype=author&query=Ni,+H)

查看 PDF (https://arxiv.org/pdf/2606.00708)

> 摘要:自动化数据科学本质上是一个结构化的模型选择问题。解决方案必须为任务选择数据变换、特征表示、架构、训练过程、评估协议和优化策略。AutoML 系统可以自动化部分流程,但通常只在预定义的流水线、模型和超参数空间内进行搜索。基于 LLM 的智能体通过检索、代码生成和执行反馈提供了更高的灵活性,但其建模决策往往缺乏结构、难以验证且不易复用。我们提出 MOSAIC(Modular Orchestration for Structured Agentic Intelligence and Composition,面向结构化智能体智能与组合的模块化编排),这是一个基于记忆的结构化智能体框架,用于模型选择和工作流构建。给定任务和数据集,MOSAIC 构建语义任务画像,检索历史案例和源代码模块,并生成蓝图:一种中间表示,指定了所选建模组件、组合方式、接口约束和执行要求。该蓝图将模型选择转化为分阶段、基于上下文的搜索,并将基于 LLM 的代码生成建立在检索到的证据之上,而非无约束的合成。候选模型通过执行进行验证,并利用诊断反馈、训练轨迹、任务指标以及一种故障感知的强化学习策略进行优化。我们在金融时间序列预测和生成任务上实例化了 MOSAIC,这些任务中的模型必须满足预测精度、分布保真度、执行可靠性以及风险与尾部行为等下游金融标准。与 AutoML 和基于智能体的基线相比,实验表明 MOSAIC 在任务性能、执行成功率和决策可追溯性方面均有提升,证明了将自动化数据科学视为结构化、可复用且基于执行的模型选择这一方法的价值。

## 提交历史

来自:Yifan Bao [查看邮箱 (https://arxiv.org/show-email/90fb6e46/2606.00708)]  
**[v1]** 2026年5月30日 星期六 12:31:13 UTC (1,049 KB)

相似文章