提升AI智能体的速度与能效
摘要
麻省理工学院和微软的研究人员开发了一种智能系统,可自动优化智能体工作流,在保持性能的同时减少计算资源和能源消耗。
<p>智能体工作流是由人工智能驱动的软件系统,它串联多个模型和外部工具来处理复杂任务,例如分析视频并回答相关问题。</p><p>但这些高度碎片化系统的设计和部署方式常常导致效率低下,造成计算能力、能源和成本的浪费。</p><p>为了提高效率,麻省理工学院和微软的研究人员开发了一种智能系统,能够简化智能体工作流的设计过程,并自动优化这些工作流的实施方式。</p><p>借助这一新方法,开发者可以用自然语言描述他们希望智能体工作流完成的任务,而无需事先详细说明应用的所有细节。</p><p>该系统会自动确定使用的最佳模型和工具,以及云服务提供商执行工作流时的理想硬件配置和计算资源分配。</p><p>它还能根据每位用户的优先需求(例如最小化成本或最大化速度)动态调整配置。</p><p>在多个智能体工作负载上的测试表明,与传统方法相比,这一新系统在部署时所需计算单元数量大幅减少,显著降低了能源需求和成本,同时不损害性能。</p><p>“智能体工作流正变得越来越复杂,并迅速成为云服务提供商的核心业务。能源使用是一个巨大的担忧,因此我们必须非常关注这些工作流的效率。很容易过度分配资源,浪费能源和资金。让云服务提供商能够智能地优化这些工作流的资源使用,对各方都是利好。”电气工程与计算机科学(EECS)研究生、相关论文<a href="https://goharirfan.me/publications/murakkab_osdi_2026_paper.pdf" target="_blank">第一作者</a>Gohar Chaudhry表示。</p><p>论文共同作者包括EECS副教授、麻省理工学院计算机科学与人工智能实验室成员Adam Belay,资深作者、微软Azure技术院士兼企业副总裁Ricardo Bianchini,以及微软Azure的其他成员。该论文将在USENIX操作系统设计与实现研讨会上发表。</p><p><strong>配置难题</strong></p><p>智能体工作流由多个自主AI智能体组成,它们协作使用各种模型和工具(如数据库或Python程序),动态完成多步骤任务,例如数据处理或代码生成。</p><p>这些工作流可以作为幕后流程,支持面向用户的应用。</p><p>通常,开发者必须预先硬编码所有技术选择。他们需要定义使用哪些AI智能体、模型和工具,以及使用顺序。还必须指定运行工作流的硬件,并权衡速度与成本等因素。</p><p>这尤其具有挑战性,因为智能体工作流结合了多个黑盒模型和多样化的工具,每个都有各自的配置选项,可能由不同公司提供。</p><p>如果发布了新的AI模型能提高应用的准确性或效率,开发者需要从头开始实施。</p><p>“即使你想手动完成这一切,也不太可能最优地配置工作流,因为可能的配置空间实在太大了。”Chaudhry说。</p><p>此外,为用户部署应用的云数据中心在用户请求时无法深入了解工作流内部,从而无法以最高效的方式分配硬件资源。</p><p>在这套名为Murakkab(乌尔都语,意为“事物的组合”)的新系统中,研究人员力求优化整个智能体工作流过程。</p><p><strong>动态决策</strong></p><p>首先,Murakkab让开发者通过高层意图描述来创建智能体工作流,而无需详细说明该工作流各组件如何组合。</p><p>例如,开发者可以描述一个视频问答应用,该应用提取关键帧、生成转录,然后回答用户关于视频的问题。</p><p>“实现这一目标有很多方式,不同的模型和工具会影响应用完成任务的速度。”他说。</p><p>Murakkab接收开发者的简要规范,自动识别最佳现有模型和工具,并将其组合成工作流。</p><p>它还能确定哪些组件需要顺序运行,哪些可以并行运行以提升性能。</p><p>“平台会随时间动态做出配置决策,因此即使明天出现新模型或GPU加速器,开发者也不需要操心。”他说。</p><p>当云服务提供商为客户部署该应用时,Murakkab通过配置工作流组件来优化满足用户约束(例如在满足延迟要求的前提下优先考虑准确性)。</p><p>它自适应地识别理想的硬件分配和部署计划,以实时最大化效率,然后生成可供云服务提供商执行的工作流。</p><p>“我们的系统还为云服务提供商提供了多个工作负载的可见性,因此提供商可以在满足用户约束的同时,以最高效的方式共享计算资源。”他说。</p><p>在对视频问答和代码生成的多种智能体工作流进行测试时,Murakkab在满足用户要求的同时,仅使用了其他方法所需计算资源的约35%。能源消耗约为其他方法的27%,成本不到25%。</p><p>Murakkab的动态特性还使用户能够权衡取舍。例如,在某个实例中,系统将智能体工作流的能耗降低了超过一个数量级,而客户的准确性仅下降了约2%。</p><p>该系统还意外地为选择视频帧的模型找到了一种理想配置,优化了视频问答任务的性能。Chaudhry表示,这种优化几乎不可能由开发者手动完成。</p><p>接下来,研究人员计划将系统扩展到更复杂的工作流和更大的计算集群,同时探索优化新型智能体应用的机会。</p><p>“使这些工作流更节省资源、消耗更少能源的潜力巨大,但我们需要从主要云平台的规模来考虑这个问题。”Chaudhry说。</p><p>本研究部分得到了半导体研究公司(Semiconductor Research Corporation)和美国国防高级研究计划局(U.S. Defense Advanced Research Projects Agency)的支持。</p>
查看缓存全文
缓存时间: 2026/06/25 05:12
# 提升 AI 智能体的速度与能效
来源:https://news.mit.edu/2026/improving-ai-agent-speed-and-energy-efficiency-0625
智能体工作流是一种由人工智能驱动的软件系统,它将多个模型和外部工具串联起来,处理诸如分析视频并回答相关问题等复杂任务。
然而,这些高度碎片化的系统在设计和部署时常常导致效率低下,从而造成计算、能源和成本的浪费。
为了提高效率,来自 MIT 和微软的研究人员开发了一套智能系统,它能够简化智能体工作流的设计过程,并自动优化这些工作流的实施方式。
借助这种新方法,开发者可以用简单的自然语言描述他们希望智能体工作流完成的任务,无需事先指定应用的所有细节。
该系统会自动确定要使用的最佳模型和工具,以及在云服务提供商执行工作流时的理想硬件配置和计算资源分配方案。
它会根据每位用户的优先级(例如最小化成本或最大化速度)来动态调整这些配置。
在对多个智能体工作负载进行测试时,这套新系统在不影响性能的前提下,相比传统方法显著减少了部署所需计算单元的数量,大幅降低了能耗和成本。
“智能体工作流正变得日益复杂,并迅速成为云服务提供商业务的核心支柱。能耗是一个巨大的担忧,因此我们必须非常关注这些工作流的效率。资源过度分配很容易造成能源和金钱的浪费。让云服务提供商能够智能地优化这些工作流,使其资源使用更加合理,这对所有参与者来说都是共赢,”电气工程与计算机科学(EECS)研究生、该论文的第一作者 Gohar Chaudhry 表示。相关论文(https://goharirfan.me/publications/murakkab_osdi_2026_paper.pdf)已发表。
与他共同撰写该论文的还有 EECS 副教授、MIT 计算机科学与人工智能实验室成员 Adam Belay;资深作者、微软 Azure 技术院士兼企业副总裁 Ricardo Bianchini;以及微软 Azure 的其他成员。该论文将在 USENIX 操作系统设计与实现研讨会上发表。
**配置难题**
智能体工作流是一个由多个自主 AI 智能体组成的系统,它们协同使用各种模型和工具(如数据库或 Python 程序),以动态完成多步骤任务,例如数据处理或代码生成。
这些工作流可以作为后台进程,为用户界面应用提供动力。
通常,开发者必须预先硬编码所有技术选择。他们需要定义使用哪些 AI 智能体、模型和工具,以及使用它们的顺序。他们还必须指定运行工作流的硬件,并平衡速度与成本之间的权衡。
这尤其具有挑战性,因为智能体工作流将多个黑盒模型和多样化的工具结合在一起,每个都有各自的配置选项,且可能来自不同的公司。
如果发布了一个能提高应用精度或效率的新 AI 模型,开发者需要从头开始重新实施。
“即使你想手动完成所有这些工作,也不太可能最优地配置工作流,因为可能的配置空间实在太大了,”Chaudhry 说。
此外,为顾客部署应用的云数据中心无法深入了解工作流内部,在用户请求时也无法以最高效的方式分配硬件资源。
通过这套名为 Murakkab(一个乌尔都语词汇,意为“事物的组合”)的新系统,研究人员力求优化整个智能体工作流过程。
**动态决策**
首先,Murakkab 允许开发者通过高层术语描述其应用意图来创建智能体工作流,而无需详细说明工作流中众多组件应如何组合。
例如,开发者可以描述一个视频问答应用,该应用提取关键帧、生成文字记录,然后回答用户关于视频的问题。
“实现这一点有多种方式,而所有这些不同的模型和工具都会影响应用完成任务的速度,”他说。
Murakkab 接收开发者的简单规范,自动识别最佳的现有模型和工具,并将它们组合成工作流。
它还会确定哪些组件需要顺序运行,哪些可以并行运行以提升性能。
“该平台会随着时间的推移动态做出配置决策,所以如果明天出现了新模型或 GPU 加速器,开发者无需为此操心,”他说。
当云服务提供商为客户部署该应用时,Murakkab 通过配置工作流组件来满足用户的约束条件(例如在满足延迟要求的同时优先考虑精度),从而优化工作流。
它自适应地识别理想的硬件分配和部署调度,以实时最大化效率,然后生成一个可供云服务提供商直接执行的工作流。
“我们的系统还为云服务提供商提供了多个工作负载的可见性,因此提供商可以在满足用户约束的同时,以最高效的方式共享计算资源,”他说。
在针对视频问答和代码生成的不同智能体工作流进行测试时,Murakkab 在满足用户要求的同时,仅使用了其他方法所需计算量的约 35%。其能耗仅为其他方法的约 27%,成本不到 25%。
Murakkab 的动态特性还使用户能够权衡取舍。在一个实例中,该系统将智能体工作流的能耗降低了一个数量级以上,而对客户的精度影响仅下降了约 2%。
该系统还能够为选择视频帧的模型识别出一个意想不到的理想配置,从而优化视频问答任务的性能。这种优化方式对于开发者来说几乎不可能手动完成,Chaudhry 说。
接下来,研究人员计划将其系统扩展到更复杂的工作流和更大的计算集群,同时探索优化新型智能体应用的机会。
“让这些工作流在资源使用上更加合理,从而消耗更少的能源,潜力巨大,但我们需要在主要云平台的规模上思考这个问题,”Chaudhry 表示。
本研究部分得到了半导体研究公司和美国国防高级研究计划局的支持。
相似文章
AI agents 正在改变人们对计算成本的看法
本文讨论了AI代理工作流如何将优化重心从单纯的推理成本转向更广泛的挑战,如延迟、编排开销和可靠性。文章强调了向混合架构和动态模型路由发展的趋势,以应对这些多步骤工作流的复杂性。
@dair_ai: https://x.com/dair_ai/status/2061104052818108476
三篇值得关注的人工智能论文综述:SkillOpt 将技能文档视为可训练参数以优化冻结的智能体;一种新方法将智能体工作流编译成模型权重,实现100倍成本降低;而 AutoScientists 引入了一个去中心化智能体团队,无需中央规划者即可进行长期科学研究。
AI智能体的进步速度远超大多数人预期
本文讨论了AI智能体在过去一年中的快速进步,重点介绍了它们在多步骤工作流、工具使用、编程和现实世界集成方面能力的提升,标志着从演示到实用数字工作者的转变。
一种估算 AI 功耗的更快速方法
来自麻省理工学院(MIT)和 IBM 的研究人员开发了一种快速工具,可在几秒钟内估算 AI 功耗,速度远超传统的模拟方法,有助于优化数据中心的能源效率。
@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069064122218717387
本文探讨了AI代理如何利用微软研究院的SkillOpt等技术自动编写和优化其技能文件,该技术将技能文档视为可训练状态,并带来显著的性能提升。文章还解决了手动技能调优的挑战,并介绍了GEPA和EvoSkill等进化方法的框架。