从自动化到自主化:分层智能体原生网络架构 (HANA)

arXiv cs.AI 论文

摘要

本文提出了一种名为HANA的分层多智能体参考架构,旨在实现4级/5级自主网络。它集成了智能体自我意识,以协调战略治理与反射性故障恢复,并在5G核心网络环境中验证,实现了平均修复时间减少86%。

arXiv:2605.20608v1 公告类型:新 摘要:实现4级/5级自主网络(AN)需要从静态自动化转向智能体原生智能。当前依赖刚性脚本的操作缺乏处理异常情况的认知能力。为此,本文提出了一种分层多智能体参考架构,以实现高级自主性。该框架采用双驱动编排器,协调专门的执行智能体,并由共享公共内存支持统一领域知识。一项关键创新是集成了智能体自我意识,使系统能够协调深思熟虑的战略治理与反射性故障恢复。我们在5G核心网络环境中实例化并验证了该架构。案例研究表明,该系统在拥塞情况下维持关键吞吐量,并将平均修复时间(MTTR)降低了86%,证实了其在统一战略规划与运营韧性方面的有效性。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:47

# 从自动化到自主化:分层智能体原生网络架构(HANA)

来源:https://arxiv.org/html/2605.20608  
Binghan Wu, Shoufeng Wang, Yunxin Liu, Ya-Qin Zhang, Joseph Sifakis, 和 Ye Ouyang  
Binghan Wu, Shoufeng Wang, 和 Ye Ouyang 就职于亚信科技(中国)有限公司,北京,中国(电子邮件:{wubh3, wangsf11, ye.ouyang}@asiainfo.com)。Yunxin Liu 和 Ya-Qin Zhang 就职于清华大学智能产业研究院(AIR),北京,中国(电子邮件:{liuyunxin, zhangyaqin}@air.tsinghua.edu.cn)。Ye Ouyang 亦任职于清华大学智能产业研究院(AIR),北京,中国。Joseph Sifakis 就职于 Verimag,格勒诺布尔阿尔卑斯大学,格勒诺布尔,法国(电子邮件:[email protected])。

###### 摘要

实现L4/L5级自主网络(Autonomous Networks, AN)需要从静态自动化向智能体原生智能的转变。当前依赖刚性脚本的运维操作缺乏处理异常状况的认知能力。为此,本文提出了一种分层多智能体参考架构,旨在实现高级别自主性。该框架包含一个双驱动编排器(Dual-Driven Orchestrator),用于协调专门的执行智能体(Executive Agents),并由共享的公共记忆(Public Memory)提供统一领域知识支持。一个关键创新是引入了智能体自我意识(agent self-awareness),使系统能够协调深思熟虑的战略治理与反射式的故障恢复。我们在5G核心网环境中实例化并验证了该架构。案例研究表明,该系统在拥塞情况下维持了关键吞吐量,并将平均修复时间(Mean Time to Repair, MTTR)降低了86%,证实了其在统一战略规划与运营韧性方面的有效性。

## I. 引言

实现L4/L5级自主网络(AN)需要从静态自动化向智能体原生智能的范式转变。虽然行业追求“零X”体验[4,3],但当前的人机协同运维模式在面对异构网络复杂性时力不从心。现有机制(例如,AIOps[10]、SON[2]、SDN编排[8])充当被动的静态控制器。它们能够处理常规事件,但缺乏主动应对未知中断的认知能力,在自动化执行与真正自主认知之间留下了关键空白。

为填补这一空白,我们提出了分层智能体原生网络架构(Hierarchical Agent-native Network Architecture, HANA)(见图1)。与近期那些仅执行高层指令而无上下文感知能力的意图驱动架构不同[6,7],HANA赋予网络内在的问题解决能力。这种自主性通过一种基于“慢”与“快”思维双过程理论[9]的认知架构得以实现:

- **内部驱动(慢思维):** 系统的内在驱动力源于类似于“慢”、深思熟虑的认知,负责长期战略治理和主动优化。在我们的设计中,这由一个自我意识(Self-awareness)模块实现,该模块主动维护内部意图(例如,服务最优性)。当它检测到当前网络状态与这些目标之间存在偏差——即使没有外部故障——它会自主启动预测性规划,在性能下降之前纠正趋势。
- **外部驱动(快思维):** 为补充这种深思熟虑,我们叠加了一种模仿“快”反应式反射的外部驱动,用于即时生存。由关键环境告警触发,该机制绕过复杂的推理循环,直接指导执行智能体执行经过预验证的补救措施,以实现毫秒级的故障缓解。

通过整合这两种机制,HANA建立了一个双驱动编排器智能体(Dual-Driven Orchestrator Agent),它协调了长期战略治理与即时运营韧性。该智能体通过不同的认知路径实现了双过程理论。对于内部驱动,编排器与长期记忆(Long-term Memory)交互以检索系统状态和约束,生成初始元目标(meta-goal)。该元目标由决策制定模块(Decision Making module)处理,该模块采用预测性成本效益分析来制定精确的内部目标(internal goal)。相反,外部驱动响应外部刺激:智能体综合感知数据与当前系统上下文,定义紧急事件。在架构上,HANA实现了规划与执行的严格解耦。编排器作为中央规划器,将内部驱动或外部驱动生成的目标分派给专门的执行智能体。这些智能体作为领域专家,接收高层指令,并执行本地效用分析,通过智能工具箱(Intelligent Toolbox)将其转化为具体、原子的动作(Actions)。

本文的主要贡献是:(1) 我们提出了一种分层的智能体原生参考架构,将网络管理从工具辅助的自动化转变为自主问题求解。(2) 我们提出了一种新颖的双驱动认知框架,将战略认知与执行解耦,统一了长期内在意图与短期生存需求。(3) 我们在5G核心网环境中验证了HANA。案例研究表明,该系统在拥塞情况下维持了关键吞吐量,并且与人工运维相比,平均修复时间(MTTR)降低了86%,证实了其在真实场景中的有效性。

参考图说明
图1:所提出的分层智能体原生网络架构(HANA)概览。该框架包含一个双驱动编排器,协调“慢”内部驱动(蓝色流程,a-d)和“快”外部驱动(红色流程,1-2)。它通过A2A协议协调专门的执行智能体,利用共享公共记忆和智能工具箱,为自主网络实现感知-认知-执行的闭环。

## II. 分层智能体原生网络架构(HANA)

### II-A 架构概览

如图1所示,HANA结构化为三个逻辑上不同的层,建立了从感知到认知再到执行的闭环。

- **公共记忆与知识层(顶层):** 该层作为统一的知识库。它聚合实时网络性能指标和事件。它还维护一个可通过模型上下文协议(MCP)访问的公共记忆(Public Memory),存储通用知识和领域知识。为确保韧性,公共记忆采用逻辑集中但物理分布的设计[1]。其生命周期管理——包括持续更新、基于快照的版本控制和冲突解决——严格遵循行业标准[5]。
- **认知核心层(中间层):** 这是自主性的核心所在,容纳了双驱动编排器智能体和专门的执行智能体(例如,服务保障智能体)。智能体通过智能体间协议(A2A)进行协作,进行深思熟虑和决策。
- **智能工具箱层(底层):** 该层将认知意图桥接至电信级运营。它封装了原子功能(例如,接入与会话控制、策略与计费),使智能体能够通过标准化接口安全地执行命令。

### II-B 双驱动编排器:内部驱动与外部驱动

核心创新在于编排器智能体,它实现了一个双驱动认知模型,使智能体能够平衡即时反射与长期战略规划。

**内部驱动**(图1中蓝色箭头a–d)充当战略规划者。由自我意识驱动,智能体首先从私有记忆(Private Memory)中检索操作约束和任务特定上下文(步骤a)。它反思这一内部状态以生成元目标(Meta-goal)(步骤b)。元目标是存储在私有记忆中的持久性战略意图,并指导选择制定模块(Choice Making module)。通过结合由态势感知(situation awareness)得出的前瞻性预测(步骤c),该模块制定高层战略目标。这些目标最终作为内部目标(Internal Goal)通过A2A协议传输(步骤d)。内部目标是瞬时的、战术性的任务描述。这个广泛的推理循环体现了一种“慢思维”范式,刻意牺牲速度来权衡长期效用并确保全局最优性。

**外部驱动**(图1中红色箭头1–2)并行运行以处理即时威胁。检测到告警后,态势感知模块查询记忆层以检索系统上下文并记录活动状态(步骤1)。然后执行初步诊断,将系统状态、告警数据和诊断结果封装成一个基于状态的响应式事件(Reactive State-Based Event)。该事件立即通过A2A协议传输给专门的执行智能体(步骤2)。这种短接路径实现了“快思维”反射,绕过复杂的目标推理,确保毫秒级的缓解。

### II-C 执行智能体与闭环执行

执行智能体通过严格的决策制定过程翻译编排器的指令。收到输入后(步骤i),智能体将其与历史上下文(步骤ii)和实时状态(步骤iii)综合。目标管理模块(Goal Management module)对任务进行优先级排序。为解决驱动间的冲突,HANA采用严格的基于优先级的调度机制。当外部驱动检测到“硬约束”违反时,产生的紧急事件会抢占并暂停任何正在进行的内部目标,直到故障缓解且安全边界恢复。然后,规划模块(Planning module)生成具体计划(Plan)(步骤iv)。在执行过程中,智能体将此计划转化为原子工具执行(Tool Executions),通过MCP向智能工具箱发送命令(步骤v)。最后,收集结果(Results)(步骤vi)更新私有记忆(步骤vii),确保持续适应。

## III. 案例研究

在本节中,我们介绍两个不同的案例研究,以验证HANA的自主闭环能力。案例A重点展示主动操作,其中编排器利用自我意识预测风险并驱动战略优化。案例B演示反应式机制,展示系统如何针对关键故障执行毫秒级自愈。

### III-A 关键终端主动服务保障

本案例研究验证了架构的内部驱动(图1中的过程a–d和i–Vii),重点关注在苛刻场景(如工业物联网和自主系统)中维护关键终端的严格服务水平协议(SLA)。在这些环境中,动态网络拥塞是主要威胁。传统的反应式操作——仅在吞吐量崩溃或服务中断后才触发——从根本上是不足的,因为故障后缓解往往为时已晚,无法防止任务失败。因此,需要主动的、目标驱动的行动来预测网络风险。HANA通过利用其核心认知能力来应对这一需求,使智能体能够利用自我意识预测潜在的SLA违规,并抢先编排服务保障。

工作流程由编排器智能体启动,负责持续将网络状态引导至长期战略目标。智能体的态势感知模块(通过感知)持续接收遥测数据,特别监控小区级负载趋势,并将其与高优先级VIP用户会话的存在相关联。关键的是,智能体的自我意识组件主动将这些观察到的、恶化的状态趋势与其维护的智能体目标(Agent Purpose)进行评估——具体而言,是确保关键应用的吞吐量保持在从私有记忆中动态检索的VIP终端SLA要求的2 Mbps下限以上的元目标。当预测模型预测如果不采取行动则即将发生SLA违规的高概率时,智能体的选择制定逻辑被触发。它不等故障发生,而是综合风险预测与内部概要,生成新的元目标:“为VIP终端执行预防性服务保障”。

编排器智能体通过A2A协议将此目标作为主动目标(Proactive Goal)传输给专门的服务保障智能体,建立初始任务上下文并定义资源边界。收到此目标后,保障智能体在其主动行为循环中运行。其目标管理和规划模块制定全面的优化策略。该策略涉及抢先选择最佳下一代服务质量标识符(NG-QI),动态提升关键流的优先级,并预留所需的保证比特率分配以缓解即将到来的拥塞峰值。该智能体通过模型上下文协议(MCP)和智能工具箱将这一高层策略转化为具体的网络配置更改,确保在最关键的负载激增之前早早应用该措施。

参考图说明
图2:有/无智能体保障及传统规则脚本的终端在拥塞期间的视频上传速率。  
为验证这一点,我们模拟了一个2 Mbps VIP监控摄像头的拥塞场景,将HANA与未受保护的基线和传统规则脚本进行比较。如图2所示,未受保护的终端(蓝线)遭遇吞吐量骤降至约0.25 Mbps。规则脚本(绿线)本质上是反应式的;其必要的监测防抖(过滤瞬态波动)和串行执行引入了约30秒的延迟。因此,它仅在SLA被违反后才介入,留下了明显的中断窗口。形成鲜明对比的是,HANA(红线)利用其预测模型预测SLA风险,在拥塞影响终端之前抢先编排资源预留。这种零降级的主动干预证实了HANA相较于传统自动化的故障后缓解具有认知优势。

### III-B 核心网自愈

本案例研究验证了架构的外部驱动(图1中的过程1–2和i–Vii),解决了从隐藏核心网故障中快速自动恢复的关键需求。现代电信核心网依赖于多技术部署,使其容易受到诸如配置错误或资源耗尽等复杂问题的影响。传统运维严重依赖人工排障,但人工排障速度慢、依赖技能,且随着网络规模扩大效率低下。为最大限度减少中断对用户体验的影响,快速、自主的故障恢复变得至关重要。

自愈工作流程在编排器的态势感知模块检测到关键异常时触发。考虑一个实例,监控系统发出“HTTP连接资源耗尽”告警。

相似文章

The Autonomous Stack

Product Hunt

一套面向生产环境的架构框架,用于构建基于 Claude 的自主智能体,已在 Product Hunt 发布。