Auto-FL-Research：面向联邦学习算法的代理搜索

arXiv cs.AI 2026/07/03 04:00 论文

federated-learning agentic-search automl algorithm-search healthcare nvidia

摘要

Auto-FL-Research 引入了一种受约束的编码代理工作流，用于自动搜索和评估联邦学习算法配方，在多个医疗健康和 LEAF 任务上展示了性能提升，同时也揭示了种子敏感和搜索选择的失败案例。

arXiv:2607.01366v1 Announce Type: new 摘要：联邦学习（FL）研究通常依赖于许多微小但至关重要的算法选择：优化器变体、服务器聚合规则、本地训练调度、归一化、正则化和模型架构。这些选择手动探索成本高昂，且当候选变更可能改变 FL 训练或评估路径时，难以公平比较。在本工作中，我们提出了 Auto-FL-Research (AFR)，一种用于 FL 算法配方搜索的受约束编码代理工作流。代理可以提出并实现候选训练算法，包括服务器聚合规则、客户端更新调度、本地目标函数以及注册的模型变体，而任务配置文件则固定了变异面、计算预算、通信合约和最终模型评估。每次试验记录候选分数、运行时间、编辑文件、产物和失败状态。我们在五个医疗健康跨孤岛 FLamby 任务以及针对五个固定 LEAF 数据集加 LEAF 合成任务的分组客户端配置文件上评估了 AFR。五次种子重复评估支持在四个 FLamby 任务和六个 LEAF 配置文件中的五个上获得增益，同时也暴露了种子敏感和搜索选择的失败案例。相同预算的对照组表明，若干增益对应于 FL 配方的变化，而其他改进则通过固定面的标量控制恢复，或在重复或留出评估中失败。这些混合结果是贡献的一部分：它们展示了如何将代理生成的候选分离为重复的 FL 机制、固定面调优效应以及选定的单次运行产物。

查看原文

查看缓存全文

缓存时间: 2026/07/03 05:44

# Auto-FL-Research: 联邦学习算法的智能体搜索
来源：https://arxiv.org/html/2607.01366  
Holger R. Roth, Ziyue Xu, Chester Chen, Daguang Xu, Peter Cnudde, Andrew Feng  
NVIDIA，圣克拉拉，美国

###### 摘要

联邦学习（FL）研究通常依赖于许多虽小但至关重要的算法选择：优化器变体、服务器聚合规则、本地训练调度、归一化、正则化和模型架构。这些选择手动探索成本高昂，且当候选更改还可能改变FL训练或评估路径时，难以公平比较。在这项工作中，我们提出了Auto-FL-Research（AFR），一种用于FL算法配方搜索的受约束编码智能体工作流。智能体可以提出并实现候选训练算法，包括服务器聚合规则、客户端更新调度、本地目标和注册模型变体，而任务配置文件则固定变异表面、计算预算、通信契约和最终模型评估。每个活动记录候选方案的得分、运行时间、编辑过的文件、产物和失败状态。

我们在五个医疗跨病区FLamby任务以及针对五个固定LEAF数据集和LEAF合成任务的分组客户端配置文件上评估AFR。五次种子重复评估显示，AFR在四个FLamby任务和六个LEAF配置文件中的五个上取得了收益，同时也暴露了种子敏感和搜索选择的失败案例。相同预算的控制表明，若干收益对应FL配方更改，而其他改进可通过固定表面标量控制恢复，或在重复或保留评估中失败。这些混合结果本身就是贡献的一部分：它们展示了如何将智能体生成的候选方案区分为重复性FL机制、固定表面调优效应和选定的单次运行产物。

## I 引言

联邦学习（FL）承诺在不集中原始数据的情况下进行协作模型开发，但FL系统的实际性能取决于一个庞大的设计空间[22 (https://arxiv.org/html/2607.01366#bib.bib1)]。从业者必须选择本地优化器、服务器聚合规则、调度、正则化、客户端参与、模型架构、评估策略以及许多任务特定细节[13 (https://arxiv.org/html/2607.01366#bib.bib31)]。这些选择与数据异质性和通信约束相互作用，因此在集中训练中看似明显的改进可能在FL中失效。

自动化FL方法已经探索了这一空间的特定部分，包括可学习聚合、联邦超参数优化、联邦神经架构搜索和自适应服务器优化器[28 (https://arxiv.org/html/2607.01366#bib.bib23),32 (https://arxiv.org/html/2607.01366#bib.bib15),8 (https://arxiv.org/html/2607.01366#bib.bib17),24 (https://arxiv.org/html/2607.01366#bib.bib3)]。然而，许多有用的研究进展并非单一的标量超参数。一个具有竞争力的FL算法可能需要引入新的模型架构、更改本地损失、添加服务器优化器，或使用改进的服务器聚合方法，同时保留协议和基准定义。

参考图注图1：说明性CIFAR-10 Auto-FL-Research活动进度。每个点是运行日志中的一个候选方案；灰点是丢弃的候选方案，蓝点是活跃的候选方案，绿点是保留的候选方案，绿色阶梯线追踪运行中的最佳最终全局模型分数。紫色标记表示已记录的文献回顾事件。最近的编码智能体使得自动化代码级研究循环成为可能，但无约束的实验可能会混淆评估：智能体可以更改指标、改变数据划分、静默增加计算量，或破坏FL契约。Auto-FL-Research通过固定智能体可以编辑的内容以及每个候选方案如何被评估来解决这个问题。智能体被指示并验证仅能在任务定义的变异表面内修改代码，并且必须通过固定的FL框架（此处使用NVIDIA FLARE (NVFlare) 实现）评估候选方案。每次运行记录其预算、得分、状态、产物和文献来源。本文所述方法对应的实现作为NVIDIA FLARE Auto-FL研究示例提供[1](https://github.com/NVIDIA/NVFlare/tree/main/research/auto-fl-research)，包括控制平面、任务配置文件、绘图工具和报告工作流。

因此，我们将智能体的更改视为候选生成步骤，而非最终声明。候选方案的得分与记录的搜索轨迹、重复种子评估和任务控制一起进行解释。AFR并非被提出作为新的FL优化器；它是一种受约束的研究协议，用于在固定的执行和评估契约下使用编码智能体生成、记录和检查候选FL算法。

本文做出三项贡献。

- • 我们描述了一种基于NVFlare任务配置文件和固定预算的契约保持型智能体FL搜索框架，并明确了标量HPO之外允许的代码级修改。
- • 我们在FLamby医疗任务[5 (https://arxiv.org/html/2607.01366#bib.bib8)]和LEAF联邦基准任务[2 (https://arxiv.org/html/2607.01366#bib.bib6)]上评估该框架，包括对选定FLamby和LEAF配置进行五次种子重复，并提供匹配的基线。
- • 我们分析了哪些智能体发现的FL机制跨任务迁移，识别了在重复或保留评估中未能存活的搜索选择收益，并使用相同预算的控制来区分FL特定的配方更改与固定表面标量调优。

因此，预期的结果不仅是基准任务的更好配置，而且是一个可重复的记录，记录了尝试了什么、哪些想法迁移了、哪些候选方案失败了，以及哪些选定的收益在重复或保留评估中幸存下来。

## II 相关工作

#### 联邦优化

联邦平均（FedAvg）仍然是跨设备和跨病区FL的规范基线[22 (https://arxiv.org/html/2607.01366#bib.bib1)]。FedProx添加了一个近端项以在客户端异质性存在下稳定优化[19 (https://arxiv.org/html/2607.01366#bib.bib2)]。FedOpt推广了服务器端自适应优化，包括对聚合客户端模型差异的FedAdam风格更新[24 (https://arxiv.org/html/2607.01366#bib.bib3)]。SCAFFOLD使用控制变量来减少客户端漂移[14 (https://arxiv.org/html/2607.01366#bib.bib4)]。AFR将这些作为基线机制和构建块，智能体可以将其与任务特定的本地训练更改相结合。

#### 自动化FL与联邦架构搜索

先前的自动化FL工作，基于AutoML和NAS文献[12 (https://arxiv.org/html/2607.01366#bib.bib33),6 (https://arxiv.org/html/2607.01366#bib.bib34),10 (https://arxiv.org/html/2607.01366#bib.bib35)]，已经自动化了更狭窄的FL设计空间，包括联邦NAS、可学习聚合、贝叶斯AutoML在FL中的应用、客户端参与、边缘资源调度和FL HPO[23 (https://arxiv.org/html/2607.01366#bib.bib18),16 (https://arxiv.org/html/2607.01366#bib.bib19),11 (https://arxiv.org/html/2607.01366#bib.bib20),31 (https://arxiv.org/html/2607.01366#bib.bib21),26 (https://arxiv.org/html/2607.01366#bib.bib22),28 (https://arxiv.org/html/2607.01366#bib.bib23),8 (https://arxiv.org/html/2607.01366#bib.bib17),32 (https://arxiv.org/html/2607.01366#bib.bib15),9 (https://arxiv.org/html/2607.01366#bib.bib16)]。相比之下，AFR不是单一的优化器或控制器；它是一个受约束的编码智能体框架，用于在固定通信和评分契约下进行代码级FL配方搜索。

#### 基准与执行框架

FLamby提供了现实的医疗跨病区FL任务，包括公共划分、基线模型和指标[5 (https://arxiv.org/html/2607.01366#bib.bib8)]。LEAF提供了用于跨设备风格设置的联邦数据集，包括FEMNIST、Sent140、Shakespeare、CelebA和Reddit[2 (https://arxiv.org/html/2607.01366#bib.bib6)]。LEAF项目还分发了一个合成分类任务[17 (https://arxiv.org/html/2607.01366#bib.bib7)]。NVFlare提供了面向生产的FL执行抽象和模拟能力[25 (https://arxiv.org/html/2607.01366#bib.bib5)]。我们使用NVFlare作为执行基础，以便候选更改通过FL运行时而非独立的基准脚本进行评估。

#### 智能体研究循环

AFR工作流受到新兴自主研究系统的启发，这些系统结合了实验记录、代码编辑和文献指导的提案生成。EAIRA[3 (https://arxiv.org/html/2607.01366#bib.bib26)]框架了评估AI模型作为科学研究助理的更广泛问题，主张超越静态问答进行评估，包括受控实验室风格和现场风格的评估，以衡量模型如何支持真实研究任务。端到端系统如The AI Scientist和AI Scientist-v2自动化了机器学习研究的想法生成、代码执行、实验分析和论文撰写[21 (https://arxiv.org/html/2607.01366#bib.bib27),29 (https://arxiv.org/html/2607.01366#bib.bib28)]，而Agent Laboratory则研究了更具交互性的研究助理工作流，并带有可选的人类反馈[27 (https://arxiv.org/html/2607.01366#bib.bib29)]。Karpathy的“autoresearch”项目展示了一个最小的智能体循环，用于在持久结果日志下重复改进固定训练任务[15 (https://arxiv.org/html/2607.01366#bib.bib24)]。Camyla[7 (https://arxiv.org/html/2607.01366#bib.bib25)]强调了医学图像分割研究中的结构化文献搜索、记忆和提案生成。AFR将这些思想适应于联邦学习，通过添加任务配置文件、通信契约不变性、跨节点评估和FL特定的变异边界，以便智能体的贡献由可执行的基准结果而非仅文本响应或手稿生成来判断。

## III 方法：智能体搜索框架

参考图注

参考图注

图2：AFR循环和评估覆盖。左侧：智能体从研究意图、program.md、活跃的任务配置文件、固定预算和固定变异表面开始。候选NVFlare运行将结果追加到results.tsv；审查的批次被保留、缩减、丢弃或用于选择下一个候选方案。右侧：来自FLamby和分组客户端LEAF配置文件的风格化基准模态，通过相同的运行日志和最终全局模型评分路径进行评估。### III-A 活动算法

算法1 (https://arxiv.org/html/2607.01366#alg1)给出了智能体使用的活动循环。该算法有意简单：所有对科学比较重要的状态要么由任务配置文件固定，要么写入运行记录。智能体可以提出代码更改，但每个候选方案必须在评分前通过任务验证路径。

算法 1 AFR 活动循环任务配置文件、候选上限、变异表面、验证命令

初始化autoresearch/branch；运行基线；记录到results.tsv

当预算剩余且活动未手动停止时执行

执行候选周期：

1. 1.提出候选方案。
2. 2.验证编辑、预算字段、契约和冒烟测试。
3. 3.在NVFlare中运行候选方案；提取最终分数。
4. 4.记录分数、运行时间、状态、描述、产物。
5. 5.审查为*保留*、*丢弃* 或 *崩溃*。

如果平台看门狗触发则

通过文献循环恢复：

选择基于来源的提案；记录事件。

完成：重复选定配置；重新生成图表；撰写最终报告。

### III-B 任务配置文件和固定预算

每个活动从指定数据集、指标、模型预算、客户端/站点配置、轮数、最终评估策略和允许的变异文件的任务配置文件开始。仅当候选方案保留固定预算字段时，才具有可比性。对于架构子活动，配置文件包括最大参数量，并要求所选架构、归一化模式和参数上限在服务器和所有客户端上以相同方式实例化。

### III-C 联邦契约

智能体必须保留NVFlare客户端契约。在我们的实验中，客户端接收当前全局模型，严格加载它，执行本地训练或评估，计算模型差异，并发送带有元数据中本地步骤数的DIFF类型更新。相同的最终全局服务器模型用于指标评估。这防止候选方案通过更改评估路径、更改更新类型或在客户端和服务器上使用不同的模型状态模式显得更好。在实现中，此契约通过基于AST的静态验证器进行检查，该验证器要求flare.init()、flare.receive()、flare.send()、严格的state_dict加载、类型化更新输出、NUM_STEPS_CURRENT_ROUND元数据和评估分支。每个任务配置文件在完全活动使用之前还运行Python编译检查和特定任务的冒烟命令。

### III-D 变异表面

允许的变异表面包括任务本地的客户端训练逻辑、任务本地的作业构建、注册的模型变体、任务本地的工具和共享的自定义聚合器。智能体可以调整优化器、调度、正则化、本地步骤数、服务器学习率、动量、类似FedProx的目标、FedOpt风格的服务器规则和架构变体。除非人类明确要求协议或基准更改，否则他们不能更改原始数据桥或任务数据语义。这些边界部分通过代码检查，部分通过审查：静态验证器捕获契约破坏，冒烟运行捕获许多运行时协议错误，最终报告标识每个保留候选方案编辑了哪些文件。当前系统尚未提供完整的加密或沙盒级别证明未触及禁止文件；我们将其视为未来加固的工程目标。

### III-E 运行日志、审查和文献循环

每个候选方案记录在制表符分隔的运行日志中，包括分数、运行时间、预算、状态、目标文件、描述和产物路径。候选行最终确定为*保留*、*丢弃* 或 *崩溃*。当搜索进入平台期时，智能体必须查阅相关文献，写下基于来源的想法，然后实现候选方案。最终报告可以区分简单的参数调优和源自论文方法的更改。在参考工作流中，平台看门狗建议在持续运行未实质性改进或文献重置的已评分非崩溃候选方案后切换到文献模式。文献事件记录为非评分行，因此搜索成本和提案时机在活动后仍然可见。

### III-F 产物追踪

活动的输出是产物追踪，而不仅仅是最佳分数。AFR框架将控制提示、任务配置文件、变异模式、候选表、生成的进度图、最终报告、选定代码差异和后续种子评估一起保留在实验分支中。这种结构让评审者能够重建搜索表面、识别无效候选方案、区分选定的胜利与重复结果，并检查声称的机制是来自标量调优、任务本地代码、架构注册还是基于文献的提案生成。最佳配置是此记录的一个输出，而非唯一的分析对象。

## IV 实验设计

表I：用于解释AFR收益超过标量HPO的搜索空间比较。所有模式保留相同的FL通信契约、数据桥、候选模式和最终全局模型评估路径。

Auto-FL-Research：面向联邦学习算法的代理搜索

相似文章

利用专家代理进行自动研究：开发高效且非平凡的训练配方

AutoLLMResearch：通过从低成本学习来优化高成本，训练研究智能体以自动化大型语言模型实验配置

@PyTorch：无需重构的联邦学习最有价值的数据往往最难移动。法规约束…

@lftherios：1/ @karpathy 的 autoresearch 是今年最具代表性的智能体范式之一。问题在于……

联邦学习

提交意见反馈