TelcoAgent:可扩展的5G多KPM预测与基于3GPP的可解释性
摘要
TelcoAgent是一个基于基础模型的框架,用于5G网络中可扩展且可解释的多KPM预测,利用自动化的3GPP知识图谱构建和时间序列基础模型进行零样本预测。
arXiv:2606.19821v1 公告类型:新
摘要:关键性能测量(KPM)预测对于5G及下一代电信网络的主动网络管理至关重要。然而,现有的机器学习(ML)方法在可扩展性和可解释性方面存在显著局限,限制了其在真实世界部署中的有效性。我们提出TelcoAgent,这是一个基于基础模型的框架,能够精确、可扩展且可解释地预测不同网络小区中的多个KPM,无需针对特定站点进行训练。具体而言,该框架包含三个关键组件:(i) 一个自动化的三智能体流水线,直接从规范文档中构建第三代合作伙伴计划(3GPP)知识图谱;(ii) 一个基于可扩展时间序列基础模型(TSFM)的预测流水线,提供精确的零样本预测;以及(iii) 一个推理与解释流水线,提供可操作的、基于领域的诊断。通过使用来自美国网络运营商的实际城市级5G KPM数据集(为期三个月)进行评估,TelcoAgent在200个小区中对每个小区的所有7个考虑KPM均表现出高预测精度,同时提供可解释的洞察和可操作指令以解决网络退化问题。
查看缓存全文
缓存时间: 2026/06/20 14:33
# TelcoAgent:基于3GPP可解释性的可扩展5G多KPM预测
来源:https://arxiv.org/html/2606.19821
Geon Kim†, Dara Ron∗, Sukhdeep Singh‡, Suyog Moogi‡, Pranshav Gajjar∗, V V N K Someswara Rao Koduri‡, Een Kee Hong†and Vijay K\. Shah∗本工作在北卡罗来纳州立大学NextG无线实验室完成,Geon Kim于2026年春季在该实验室担任访问博士研究员。
###### 摘要
关键性能测量(Key Performance Measurement, KPM)预测对于5G及下一代电信网络的主动式网络管理至关重要。然而,现有的机器学习(ML)方法在可扩展性和可解释性方面存在显著局限,限制了其在真实世界部署中的有效性。我们提出TelcoAgent,一个基于基础模型的框架,能够跨不同网络小区实现多个KPM的准确、可扩展且可解释的预测,无需针对特定站点进行训练。具体而言,该框架包含三个关键组件:(i)一个自动化三智能体管道,直接从规范文档构建第三代合作伙伴项目(3GPP)知识图谱;(ii)一个基于可扩展时间序列基础模型(TSFM)的预测管道,提供准确的零样本预测;以及(iii)一个推理与解释管道,提供可操作的、基于领域的诊断。使用来自美国网络运营商的33个月真实城市级5G KPM数据集进行评估,TelcoAgent在200个小区中针对所有77个考虑的KPM展现了高预测精度,同时提供了可解释的见解和解决网络退化的可操作指令。
## I. 引言
联邦通信委员会(FCC)人工智能(AI)、机器学习(ML)、测试和软件化工作组将关键性能测量(KPM)的预测强调为网络监控、主动编排和管控的关键能力[3 (https://arxiv.org/html/2606.19821#bib.bib2)]。准确的KPM预测使网络能够动态适应服务需求并优化资源利用,例如通过关闭空闲基站来避免显著的能源浪费。
已有文献应用了一系列经典机器学习算法进行网络KPM预测。例如,基于回归的神经网络已被用于预测用户下行吞吐量和数据流量[10 (https://arxiv.org/html/2606.19821#bib.bib5)]。为了捕捉更广泛的依赖性,时空图神经网络常用于建模小区间KPM交互[9 (https://arxiv.org/html/2606.19821#bib.bib4)]。此外,循环架构被大量用于跟踪时间变化,包括标准循环神经网络[7 (https://arxiv.org/html/2606.19821#bib.bib3)]和专用于预测下行PRB利用率的LSTM模型[14 (https://arxiv.org/html/2606.19821#bib.bib6)]。
尽管取得了近期进展,经典机器学习模型在准确性、可扩展性和可解释性方面仍面临根本性瓶颈。它们难以捕捉非线性的跨KPM依赖性,同时依赖针对特定小区的训练造成了严重的计算开销,阻碍了全网可扩展性。至关重要的是,这些模型缺乏基于领域的推理,仅输出预测而不诊断根本原因,使得运营商无法获得主动管理所需的可操作见解。
为克服这些限制,基础模型为网络管理提供了新的范式。时间序列基础模型(TSFM)具备零样本能力,无需重新训练即可预测数百个小区的多个KPM;而大型语言模型(LLM)则充当推理智能体,利用3GPP知识图谱将预测数据转化为见解。
我们介绍TelcoAgent,一个基于推理的LLM框架,用于大规模、多样化的KPM预测和主动编排。它集成了三个核心模块:(1)自动化的3GPP知识图谱构建管道,(2)基于TSFM的零样本预测管道,以及(3)基于推理与行动(ReAct)的解释管道,用于跨通道洞察。我们的主要贡献如下:
- •我们引入了一个新颖的零样本多KPM预测框架,将跨通道TSFM与使用ReAct智能体的3GPP知识检索统一起来。该方法能够联合预测多种KPM,无需特定任务训练。
- •为实现基于领域的推理,我们使用自动化三智能体管道构建了3GPP知识图谱,该管道从3GPP规范中提取、对齐并评估知识。通过将KPM与其定义、公式和因果因素关联起来,这个结构化知识库为精确的网络分析提供了坚实基础。
- •我们使用来自美国运营商的实际5G数据集对TelcoAgent进行了评估。实验结果表明,预测管道实现了高预测精度,而解释管道使用敏感性分析识别跨通道的根本原因,为网络管理提供了有证据支持的建议。
## II. 相关工作
**5G网络中的KPM预测:** 可靠的KPM预测是主动式、零接触网络管理的基石。基于LSTM的架构已被广泛部署用于预测跨异构网络切片的流量和吞吐量[16 (https://arxiv.org/html/2606.19821#bib.bib8)],而基于GNN的方法则利用基站拓扑中固有的空间依赖性[19 (https://arxiv.org/html/2606.19821#bib.bib9)]。尽管取得了这些进展,此类监督范式仍表现出根本性局限性,因为它们需要大量标注数据,在分布偏移下需要频繁重新训练,并且常常忽略跨KPM的相关性。
**时间序列基础模型:** TSFM是大型预训练模型,能够在没有特定任务训练的情况下预测未见过的时序。例如,Chronos-2[1 (https://arxiv.org/html/2606.19821#bib.bib10)]和Moirai[17 (https://arxiv.org/html/2606.19821#bib.bib12)]在单次推理中同时预测多个通道,而MOMENT[6 (https://arxiv.org/html/2606.19821#bib.bib16)]则独立处理每个通道。尽管这些模型在通用基准上取得了强零样本准确率,但它们缺乏网络运营必不可少的两种能力。具体来说,它们未能整合3GPP标准中定义的领域特定因果关系,也无法为预测提供结构化的理由。
**LLM智能体与知识接地推理:** 像GPT-4[11 (https://arxiv.org/html/2606.19821#bib.bib7)]这样的LLM支持诸如ReAct[18 (https://arxiv.org/html/2606.19821#bib.bib13)]之类的智能体框架,该框架将推理轨迹与工具调用交错进行以验证信息。在电信领域,像ORAN-Bench-13K[4 (https://arxiv.org/html/2606.19821#bib.bib15)]这样的基准为3GPP和O-RAN标准提供了基础,而OG-RAG[15 (https://arxiv.org/html/2606.19821#bib.bib14)]表明基于本体的检索比标准RAG更能提高事实准确性。然而,这些范式侧重于文本检索,缺乏将领域知识与时间序列动态联系起来的机制。TelcoAgent通过将TSFM主干与3GPP接地知识图谱相结合,实现了知识接地的预测以及因果洞察和可操作建议,从而弥补了这一差距。
## III. TelcoAgent:面向电信网络的基于LLM的框架
TelcoAgent是一个基于推理的LLM框架,旨在为复杂电信网络提供可解释的KPM预测。通过将预测建模与基于领域的推理相结合,它为运营商提供可操作的、指令驱动的指导。这种协同作用确保了即使在复杂网络环境中也能实现主动式网络管理和持续的服务质量。
TelcoAgent通过三个集成的管道运行,如图1 (https://arxiv.org/html/2606.19821#S3.F1)所示。首先,**1. 知识图谱构建管道**从3GPP规范中提取结构化见解。其次,**2. 预测管道**利用TSFM进行多个KPM的零样本预测。最后,**3. 解释管道**将这些预测与基于3GPP的推理相结合,提供可操作见解。通过采用ReAct范式,TelcoAgent确保了零样本适应性和有证据支持的见解。
### III-A 知识图谱构建
TelcoAgent将其推理基于从十三份规范中提取的3GPP知识图谱,以提供全面的领域特定理解。TS 28.552、28.554和38.314定义了性能计数器和测量到KPM的推导链,而物理层细节来自TS 38.211至38.215以及TR 38.901。诸如TS 38.300、38.321、38.322和38.331等架构和协议标准建立了结构化的网络依赖性。这些知识映射到基于本体的模式中,如图2 (https://arxiv.org/html/2606.19821#S3.F2)所示,涵盖KPM定义、物理层约束和因果关系。
参见图标题
图1:TelcoAgent架构包含三个管道:**1.** 知识图谱构建,**2.** 基于TSFM的零样本预测,以及**3.** 用于跨多个小区的因果KPM洞察和可操作建议的推理与解释。
三个专门的LLM智能体通过顺序管道构建知识图谱。首先,提取器智能体将3GPP规范解析为章节级别的块,提取主体、谓词、客体三元组,捕捉KPM关系和因果链。接下来,对齐器智能体将这些实体映射到规范的3GPP本体,同时将不一致的术语规范化到单个节点。最后,评估器智能体分配一个置信度分数 \(q \in [0,1]\),如果 \(q\) 低于阈值 \(q_{TH}\),则触发反馈循环进行重新对齐,以确保结构和语义的一致性。
参见图标题
图2:从规范构建的3GPP知识图谱,编码了KPM定义、因果链和物理层约束,用于结构化的网络推理。
### III-B 预测管道
预测管道完全依赖TSFM来生成稳健的多步KPM预测,无需任何领域特定的微调。滑动窗口持续聚合历史观测值,形成一个长度为 \(L\) 的输入矩阵 \(\mathbf{X} \in \mathbb{R}^{L \times C}\),其中 \(C\) 代表KPM通道。通过零样本推理,TSFM联合处理该矩阵,在时间范围 \(H\) 上生成预测 \(\hat{\mathbf{Y}} \in \mathbb{R}^{H \times C}\),自然地捕捉KPM间的依赖性以全面预测未来性能。通过利用TSFM的泛化表征能力,该框架捕捉复杂的退化模式,为后续的解释管道奠定定量基础。
### III-C 解释管道
来自TSFM的预测值和置信区间作为结构化提示传递给基于ReAct的推理智能体,用于因果分析。该管道首先从预测轨迹中直接提取关键指标——包括均值、趋势斜率、基线和百分比变化。通过量化这些偏移的幅度和速度,智能体为小区未来状态建立了精确的定量基线,确保诊断基于具体的部署场景。
为了揭示驱动这些预测趋势的潜在动态,管道系统地量化了KPM间的依赖性。由于TSFM表现为高度非线性的黑盒,管道采用PAX-TS[8 (https://arxiv.org/html/2606.19821#bib.bib11)],一种模型无关的方法,通过系统地变化源KPM来计算跨通道敏感性矩阵 \(\mathbf{S} \in \mathbb{R}^{C \times C}\)。为了解决经验敏感性分数中缺乏因果方向性的问题,管道从3GPP知识图谱中检索有向因果路径,并明确将其与标准化的协议循环进行匹配。
基于这些有向依赖关系,管道隔离了潜在网络异常的主要驱动因素。这是通过综合基于变化的敏感性分数、检索到的3GPP因果链以及从OpenStreetMap(OSM)[12 (https://arxiv.org/html/2606.19821#bib.bib17)]整合的空间上下文(以捕捉地理影响)来实现的。这种多模态推理使管道能够联合识别异常触发因素、解释负责的RAN功能并评估环境影响,同时系统地过滤掉虚假的非因果相关性。
一旦根本原因被隔离,管道就会制定可操作的建议,以主动应对预测到的退化。它不提供通用的监控建议,而是通过将每个建议的行动追溯到可追踪的证据链,针对特定的RAN参数。这种有针对性的指导可以实现立即且精确的网络配置调整,确保每条建议都直接映射回底层的敏感性分数和初始预测偏差,以保证技术准确性。
最后,管道包含一个自动化的自我验证步骤,以确保绝对可靠性并减轻LLM的幻觉。在输出最终见解之前,验证模块将提取的所有数值(包括敏感性分数和KPM统计描述符)与预测和变化阶段的参考计算进行交叉检查。这种严格的验证保证了生成的见解和建议完全基于经过验证的管道衍生数据,而不是幻觉文本。
## IV. 实验评估
我们与美国一家网络运营商合作,从5G蜂窝网络收集了真实的KPM。该数据集涵盖了不同的地理区域和流量场景,确保了运营条件的代表性样本。它用于验证城市级KPM预测,并全面评估我们框架的基于证据的解释和建议能力。通过利用如此真实的经验数据,我们展示了框架在处理网络异常方面的适用性。
### IV-A 实验设置
#### IV-A1 5G KPM 数据集
我们从工作在1850至1990 MHz的个人通信服务频段的5G网络收集了真实的KPM。该数据集从2025年9月到11月,持续三个月,通过集中的网元管理系统以固定的一小时粒度收集自美国德克萨斯州的200个小区。
#### IV-A2 多KPM预测模型
所提出的TelcoAgent架构使网络运营商能够将先进的预测模型无缝集成到TSFM预测模块中,而无需修改架构。通过将推理引擎与预测算法解耦,该框架确保了长期的适用性,并在必要升级期间保护核心诊断逻辑不受中断。此外,这种灵活性对于管理现代蜂窝部署中固有的高度动态流量变化至关重要。为了对该架构进行基准测试,我们评估了六个候选模型,包括三个TSFM和三个监督模型。
对于监督基线,我们评估了三个标准模型,这些模型在8月1日的历史数据上按站点训练相似文章
APEX:一种面向无线边缘运营的网络原生时间序列基础模型,用于预测与异常检测
APEX是一个网络原生的解码器专用Transformer,针对无线边缘遥测数据的预测与异常检测而设计,预训练数据来自约4500个生产网络。在DHCP退化基准测试中,其MAE比最佳通用时间序列基础模型低18%,并能在边缘硬件上实现亚秒级推理。
Nexus:面向时间序列预测的智能体框架
Nexus 提出了一种多智能体框架,将时间序列预测分解为多个专门阶段,利用大语言模型整合数值模式与上下文信息,在基准测试上取得了最先进的结果。
TrajGenAgent:一种用于人类移动轨迹生成的分层LLM智能体
TrajGenAgent提出了一种分层LLM智能体框架,将宏观活动规划与微观时空实例化解耦,用于无需微调即可生成逼真的人类移动轨迹。它还引入了一种基于异常检测的评估方法,用于行为保真度。
迈向弹性与自主网络:AI原生6G的BlueSky愿景
本文提出了一个面向AI原生6G网络的愿景框架,主张采用统一的基础模型和协作式多智能体系统,以实现超越碎片化5G方案的自主、弹性网络管理。
面向企业应用的多智能体系统可扩展定制与部署
本文提出一个统一框架,用于在企业环境中定制和部署基于LLM的多智能体系统,结合了持续预训练、微调和偏好优化的模型定制,以及使用推测解码和FP8量化的推理优化。在保持企业工作负载性能的同时,实现了4.48倍的吞吐量提升。