基于代理型AI的策略驱动物理层系统双层长期优化
摘要
本文提出了Agentic-LTPO,一种嵌套式双层优化框架,利用代理型AI在动态运营商策略下自适应物理层配置,在无小区MIMO波束赋形中实现了57.2%的长期性能提升。
arXiv:2606.24416v1 公告类型:新
摘要:网络运营商不断变化的策略、服务需求以及严格的实时约束,使得现有基于固定目标和约束的方法失效。本文提出了代理型长期性能优化(Agentic-LTPO),一种可应用于自适应物理层问题配置的嵌套式双层优化框架。其核心思想是在双层优化结构中采用代理型AI生成上层配置,将不断演变的运营商策略、环境摘要和历史经验转化为结构化的下层优化问题配置。下层则根据更新后的配置实时求解物理层决策问题。以无小区MIMO波束赋形为例,我们通过在上层设计一种结合检索增强经验验证的新型多智能体决策过程,并在下层采用闭式波束赋形器,实现了Agentic-LTPO。实验表明,与传统方法相比,Agentic-LTPO对动态运营商策略具有强适应性,并将系统长期性能有效提升了57.2%。
查看缓存全文
缓存时间: 2026/06/24 07:47
# 面向策略驱动物理层系统双层长期优化的代理型AI 来源:https://arxiv.org/html/2606.24416 Bingnan Xiao, Chenhao Yang, Wei Ni, , Xin Wang, , and Tony Q. S. Quek B. Xiao and X. Wang are with the Key Laboratory of EMW Information (MoE), College of Future Information Technology, Fudan University, Shanghai 200433, China (e-mail: [email protected], [email protected]). C. Yang is with the James Watt School of Engineering, University of Glasgow, Glasgow G12 8QQ, U.K. (email:[email protected]). W. Ni is with the School of Engineering, Edith Cowan University, Perth, WA 6027, Australia (e-mail: [email protected]). T. Q. S. Quek is with the Information Systems Technology and Design Pillar, Singapore University of Technology and Design, Singapore 487372 (e-mail: [email protected]). ###### 摘要 网络运营商不断变化的策略、服务需求以及严格的实时约束,使得以固定目标和约束设计的现有方法失效。本文提出代理型长期性能优化(Agentic-LTPO),一种可应用于自适应物理层问题配置的嵌套双层优化框架。关键思想是在双层优化结构中采用代理型AI生成上层配置,其中不断演化的运营商策略、环境摘要和历史经验被转化为结构化的下层优化问题配置。下层则使用更新后的配置解决实时物理层决策问题。以无小区MIMO波束赋形为例,我们通过设计一种带有检索增强经验验证的新型多智能体决策过程(上层),以及一种闭式波束赋形器(下层),来具体实现Agentic-LTPO。实验表明,Agentic-LTPO对动态运营商策略表现出强大的适应性,与传统方法相比,有效提升了系统长期性能57.2%。 关键词:代理型AI,无线系统,波束赋形,基础模型 ## I 引言 未来无线网络将具备密集连接、多样化服务需求和软件定义操作等特点[30 (https://arxiv.org/html/2606.24416#bib.bib1)]。协调式物理层架构(如无小区(CF)大规模MIMO)的广泛部署催生了新的波束赋形和无线资源分配设计方案,需要分布式接入点(AP)在满足耦合的服务质量(QoS)和功率约束条件下联合优化传输决策[30 (https://arxiv.org/html/2606.24416#bib.bib1),36 (https://arxiv.org/html/2606.24416#bib.bib4),8 (https://arxiv.org/html/2606.24416#bib.bib3)]。在经典的物理层控制框架中,网络运营商首先指定目标和约束,然后基于模型的求解器生成决策[36 (https://arxiv.org/html/2606.24416#bib.bib4)]。实践中,运营商策略、意图和关键性能指标(KPI)会随时间变化。理想情况下,物理层应适应策略驱动的非平稳环境,并具备时变的目标和约束。 深度学习(DL)和深度强化学习(DRL)有助于缓解无线控制对固定优化配置的依赖[21 (https://arxiv.org/html/2606.24416#bib.bib5)]。DRL已被用于通过与环境的交互学习资源分配和波束赋形策略,从而减少运行时对显式分析模型的依赖[2 (https://arxiv.org/html/2606.24416#bib.bib7),40 (https://arxiv.org/html/2606.24416#bib.bib9)]。基于学习的方法能提升在线自适应性,并为动态无线环境生成低延迟控制决策[21 (https://arxiv.org/html/2606.24416#bib.bib5)]。然而,这些方法针对给定的KPI序列设计了预定义的效用或奖励函数。一旦运营商意图发生变化(例如从吞吐量转向能效),已部署的学习规则或奖励设计就需要修改,控制器也需要重新训练。 大语言模型(LLM)和代理型AI的最新进展为自适应无线控制提供了新的可能性[39 (https://arxiv.org/html/2606.24416#bib.bib11),26 (https://arxiv.org/html/2606.24416#bib.bib12),10 (https://arxiv.org/html/2606.24416#bib.bib14),20 (https://arxiv.org/html/2606.24416#bib.bib15),28 (https://arxiv.org/html/2606.24416#bib.bib16)]。现有研究表明,LLM能够解释自然语言意图、检索相关证据并协调多种工具完成网络任务[39 (https://arxiv.org/html/2606.24416#bib.bib11),26 (https://arxiv.org/html/2606.24416#bib.bib12),10 (https://arxiv.org/html/2606.24416#bib.bib14)]。实际上,现有工作大多集中在意图提取、配置辅助或控制平面编排上[20 (https://arxiv.org/html/2606.24416#bib.bib15),28 (https://arxiv.org/html/2606.24416#bib.bib16)]。直接应用LLM生成波束赋形器并不合适,因为这些动作必须在瞬时信道状态信息(CSI)下满足严格的实时性和数值可行性要求。代理型AI更合适的用例是配置快时间尺度的物理层控制器(例如波束赋形优化器),通过解释运营商策略、总结网络行为并在较慢时间尺度上重用历史经验来实现。 遵循双层优化结构,这可以利用代理型AI的能力:在上层解释自然语言策略、推理长期网络行为并检索相关历史配置,从而生成结构化的下层问题配置参数,这些参数反映了运营商不断演化的策略和意图。在异构的上层策略和意图输入与可执行的下层配置参数之间建立可靠接口并非易事。原因是AI代理必须在上层生成结构化和可行的配置,而配置质量只能通过下层随时间累积的响应间接评估。 ### I-A 相关工作 #### I-A1 协调式无线系统的物理层配置 针对协调式无线系统的物理层优化已有大量研究。文献[9 (https://arxiv.org/html/2606.24416#bib.bib17),36 (https://arxiv.org/html/2606.24416#bib.bib4)]研究了多小区协作传输和协调波束赋形以减轻小区间干扰并提升网络效用。文献[25 (https://arxiv.org/html/2606.24416#bib.bib19),16 (https://arxiv.org/html/2606.24416#bib.bib20)]研究了大规MIMO以提供高频谱效率的可扩展架构。基于这些进展,文献[30 (https://arxiv.org/html/2606.24416#bib.bib1)]引入了CF大规模MIMO,并从预编码与功率控制[29 (https://arxiv.org/html/2606.24416#bib.bib22)]、以用户为中心的设计与实现[14 (https://arxiv.org/html/2606.24416#bib.bib23),1 (https://arxiv.org/html/2606.24416#bib.bib24)]以及本地/分布式处理[15 (https://arxiv.org/html/2606.24416#bib.bib25)]等角度进行了研究。这些工作通常假设下层目标和约束是预先指定的,无法支持时变运营商策略、操作规则和KPI下的时变波束赋形问题设置。 #### I-A2 基于学习的无线控制与优化加速 近年来基于学习的无线控制进展降低了在线复杂度并提升了动态环境下的自适应性。DL和DRL在无线通信与组网中日益重要的作用已在文献[21 (https://arxiv.org/html/2606.24416#bib.bib5),24 (https://arxiv.org/html/2606.24416#bib.bib27),22 (https://arxiv.org/html/2606.24416#bib.bib29)]中得到阐述。代表性的DRL设计已用于动态多信道接入[41 (https://arxiv.org/html/2606.24416#bib.bib30)]、在线资源分配[2 (https://arxiv.org/html/2606.24416#bib.bib7)]和动态波束赋形设计[40 (https://arxiv.org/html/2606.24416#bib.bib9)],通常依赖通用DRL框架。大量工作致力于学习或加速结构化优化。文献[38 (https://arxiv.org/html/2606.24416#bib.bib36)]训练深度神经网络用于无线资源管理;文献[35 (https://arxiv.org/html/2606.24416#bib.bib37)]研究了有限监督下的样本高效优化;文献[12 (https://arxiv.org/html/2606.24416#bib.bib38)]综述了用于物理层通信的模型驱动深度学习。最近,深度展开和基于图的展开已被应用于加权最小均方误差(WMMSE)类型的无线操作优化,包括无矩阵求逆展开[32 (https://arxiv.org/html/2606.24416#bib.bib39)]、GNN辅助的WMMSE展开用于功率分配[4 (https://arxiv.org/html/2606.24416#bib.bib40)]、用于波束赋形的深度图展开[5 (https://arxiv.org/html/2606.24416#bib.bib41)]以及知识驱动的WMMSE展开资源分配[43 (https://arxiv.org/html/2606.24416#bib.bib42)]。与纯模型优化相比,这些方法提升了决策延迟、逼近能力和在线可部署性,尤其是在优化结构已知且稳定的情况下。然而,它们主要围绕预定义的效用、奖励或优化模板设计,并未解决如何解释不断演化的策略意图并将其转化为结构化物理层问题配置。 #### I-A3 意图感知网络与代理型无线控制 一小部分但快速增长的工作将意图理解、LLM和代理型AI与通信网络联系起来。早期的意图驱动网络研究建立了意图驱动控制的概念、抽象和服务保证机制[31 (https://arxiv.org/html/2606.24416#bib.bib43),17 (https://arxiv.org/html/2606.24416#bib.bib44)],而文献[23 (https://arxiv.org/html/2606.24416#bib.bib48)]探索了LLM辅助的5G网络管理意图提取。这些研究表明,高层运营商意图可以转化为结构化的网络侧语义。最近的工作逐渐从意图解析转向更广泛的LLM赋能的网络智能[11 (https://arxiv.org/html/2606.24416#bib.bib49),19 (https://arxiv.org/html/2606.24416#bib.bib56)]。文献[45 (https://arxiv.org/html/2606.24416#bib.bib54),33 (https://arxiv.org/html/2606.24416#bib.bib55)]探索了基于LLM的上下文学习和优化用于功率控制和资源分配。文献[13 (https://arxiv.org/html/2606.24416#bib.bib50)]探索了LLM辅助的算法生成用于组网,文献[44 (https://arxiv.org/html/2606.24416#bib.bib51),34 (https://arxiv.org/html/2606.24416#bib.bib52),42 (https://arxiv.org/html/2606.24416#bib.bib53)]开发了通用的工具使用和多智能体LLM范式,为推理、工具调用和分层自主控制提供了新的构建模块。最近的研究还推动了代理型AI用于开放智能RAN,包括面向工具的代理型通信、开放6G网络的自主控制架构[7 (https://arxiv.org/html/2606.24416#bib.bib57)]、O-RAN的多尺度代理型控制与管理[27 (https://arxiv.org/html/2606.24416#bib.bib58)]、冲突感知的多代理型rApp策略编排[18 (https://arxiv.org/html/2606.24416#bib.bib59)]以及CF O-RAN的意图驱动优化[37 (https://arxiv.org/html/2606.24416#bib.bib60)]。这些工作侧重于架构自主性、编排、意图翻译或直接的LLM辅助优化。当底层目标和约束随时间变化时,实现具有推理能力的代理可靠地将不断演化的高层意图转化为结构化物理层控制器的配置,并非易事。 ### I-B 贡献 本文提出一个新框架,命名为代理型长期性能优化(Agentic-LTPO),用于自适应更新无线物理层有效控制所需的优化配置,其中网络运营商的意图、策略、操作规则和KPI可以随时间变化。主要贡献总结如下: - • 我们将运营商策略和意图变化下的自适应物理层控制建模为一个嵌套双层问题,其中上层和下层分别管理策略驱动的优化配置和即时物理层优化。Agentic-LTPO 将这两层解耦到两个时间尺度,允许代理型AI在大时间尺度上解释运营商意图,同时在下层保持下层优化的最优性。 - • 以CF-MIMO波束赋形为例展示Agentic-LTPO,我们为上层设计了一种多智能体协作架构,将策略输入、环境摘要和历史经验转化为物理上可行的配置参数。这是通过四个代理角色(解释、观察、规划和批评)以及一个规划者-批评者细化循环实现的。 - • 为了将上层决策锚定到累积的运行证据(而非孤立的生成),我们设计了一个检索增强生成(RAG)模块,维护策略记忆和案例记忆,在策略解释和配置评估期间提供相关的经验证据。 - • 我们发现低层波束赋形的鲁棒能量最小化问题在迫零准则下存在闭式最坏情况信干噪比(SINR)界,从而得到一个每时隙的高效求解器,具有全局最优性和线性复杂度,可用于评估上层生成的配置。 我们在随机和平稳分段两种运营商策略设置下,对CF-MIMO波束赋形系统进行了大量实验。Agentic-LTPO 相较于静态基线将累积通信效用提升了57.2%,证实了在演化运营商策略下自适应更新下层配置的好处。我们还检查了不同策略体制下的KPI响应和配置轨迹,并比较了原始自然语言策略与神谕结构化策略输入,以评估上层决策对语言基础化的敏感性。实验表明,Agentic-LTPO 将策略体制转化为可解释的配置更新和目标KPI响应,同时减少了语言歧义的影响。 本文其余部分组织如下。第二部分介绍系统模型。第三部分形式化两时间尺度的Agentic-LTPO问题,并提出新的上层多智能体协作机制、下层优化方法以及整体算法实现。第四部分给出实验结果,第五部分总结。 TABLE I: 符号与定义。 符号:小写字母表示标量(如 \(x\)),粗体小写字母表示向量(如 \(\mathbf{x}\)),粗体大写字母表示矩阵(如 \(\mathbf{X}\))。花体字母表示集合(如 \(\mathcal{K}, \mathcal{L}\))。
相似文章
APPO: 智能体过程策略优化
APPO通过使用细粒度决策点和过程级优势缩放来改进分支决策和信用分配,从而提升LLM智能体的多轮工具使用能力,在13个基准测试中比基线高出近4个百分点。
AccelOpt:一种用于AI加速器内核优化的自我改进LLM智能体系统
AccelOpt是一种自我改进的LLM智能体系统,通过迭代生成和优化记忆自主优化AI加速器内核,在AWS Trainium上实现了49%至61%的峰值吞吐量提升,同时比Claude Sonnet 4便宜26倍。
A^2TGPO:具有自适应回合级裁剪的代理回合组策略优化
本文介绍了 A^2TGPO,这是一种针对代理式大语言模型(LLMs)的强化学习方法,它利用自适应回合级裁剪和信息增益归一化来改善多轮交互中的过程信用分配。
一种结合大语言模型和思维链的自主AI框架,用于无人机辅助物流调度与移动边缘计算
本文提出了一种自主AI框架,利用大语言模型和思维链推理来优化无人机辅助的物流调度与移动边缘计算,旨在提高制造物流中的效率和资源分配。
StepPO:面向智能体强化学习的步骤对齐策略优化
StepPO 引入了一种面向智能体强化学习的步骤中心范式,该范式将策略优化与智能体决策粒度对齐,在多轮交互任务中优于以令牌为中心的方法。