KPI2KVI: 一种从服务描述计算关键价值指标的多智能体工作流
摘要
本文介绍了KPI2KVI,一种利用多智能体LLM工作流将自然语言服务描述转化为计算出的关键价值指标(KVI)估计值的工具,具有交互式引导和透明解释功能。
arXiv:2605.22825v1 Announce Type: cross
摘要:关键价值指标(KVI)通过总结运营绩效如何转化为利益相关者价值、风险和结果,提供面向服务的决策视角。然而,在许多领域,KVI在实践中难以计算,因为需要选择相关的KVI类别、定义可衡量的关键绩效指标(KPI)、收集KPI值并应用一致的计算逻辑,而这些通常都是基于非结构化的服务文档手动且不一致地执行的。
本文介绍了KPI2KVI,一种通过编排由大型语言模型(LLM)驱动的确定性多智能体工作流,将自然语言服务描述转化为计算出的KVI估计值的工具。该工具能够:(i) 引导缺失的服务上下文,(ii) 从分类体系中提取并确定相关的KVI类别,(iii) 生成带有单位和描述的服务特定KPI,(iv) 通过交互式对话收集KPI值,并支持对不可用KPI值进行智能估计,以及(v) 计算区间值KVI输出(最小值、精确值、最大值),并为每个KVI代码提供可追溯的解释。使用代表性服务描述进行的模拟表明,KPI2KVI始终能从描述到KVI区间生成完整的端到端映射,并提供透明的计算叙述,支持事后审计和交互式咨询查询。
查看缓存全文
缓存时间: 2026/05/25 08:59
# KPI2KVI:一种用于从服务描述中计算关键价值指标的多智能体工作流
来源:https://arxiv.org/html/2605.22825
###### 摘要
关键价值指标(KVI)通过总结运营绩效如何转化为利益相关者价值、风险和成果,提供了一种面向决策的服务视图。然而,在许多领域,KVI在实践中难以计算,因为它们需要选择相关的KVI类别、定义可度量的关键绩效指标(KPI)、收集KPI值,并应用一致的计算逻辑,而这些工作通常是从非结构化的服务文档中手动且不一致地进行的。本文提出了KPI2KVI,这是一种将自然语言服务描述转换为计算出的KVI估计值的工具,它通过编排一个由大型语言模型(LLM)驱动的确定性多智能体工作流来实现:(i) 引出缺失的服务上下文,(ii) 从分类法中提取并最终确定相关的KVI类别,(iii) 生成具有单位和描述的服务特定KPI,(iv) 通过交互式对话收集KPI值,并支持对不可用的KPI值进行智能估计,以及(v) 计算区间值形式的KVI输出(最小值、精确值、最大值),并为每个KVI代码提供可追溯的解释。使用代表性服务描述进行的模拟表明,KPI2KVI始终能够生成从服务描述到KVI区间的完整端到端映射,并提供透明的计算说明,支持事后审计和交互式咨询查询。
## I. 引言
第六代愿景越来越多地将网络视为关键的社会基础设施,期望其不仅提供先进能力,还要为可持续性、包容性、韧性和信任等长期目标做出贡献[22 (https://arxiv.org/html/2605.22825#bib.bib11),21 (https://arxiv.org/html/2605.22825#bib.bib7),20 (https://arxiv.org/html/2605.22825#bib.bib16),5 (https://arxiv.org/html/2605.22825#bib.bib22)]。随着这些期望塑造着研究议程、治理和采购,利益相关者需要能够在异构环境和生命周期阶段中*展示*、*比较*和*审计*服务的价值影响(而不仅仅是技术性能)[14 (https://arxiv.org/html/2605.22825#bib.bib1),5 (https://arxiv.org/html/2605.22825#bib.bib22)]。关键价值指标被提出以使此类价值结果可衡量且可操作,但在实践中其计算具有挑战性:价值效应是间接的且涉及多方利益相关者,相关证据往往不完整或仅能通过代理指标(测量值、认证、调查)获得,而早期阶段的设计仍需在透明假设下提供可信的估计值[22 (https://arxiv.org/html/2605.22825#bib.bib11)]。如果没有可重现的计算工作流将服务描述与基于证据的关键价值指标联系起来,价值评估就有沦为临时性、难以优化、易出现不一致或“价值洗白”的风险[21 (https://arxiv.org/html/2605.22825#bib.bib7)]。
现有方法大致分为两类。第一类,概念和治理框架提出关键价值指标并倡导价值驱动的评估过程(例如,引出利益相关者和价值观,定义指标候选,并按成熟度分阶段进行评价),这对于建立共同语言和决策制定很有价值,但通常未能提供从服务描述到具体、可重现的指标值的完全指定的端到端计算管道。第二类,操作方法将关键价值指标嵌入编排和优化中(例如,对替代方案进行排序或在性能和价值目标之间进行权衡),表明当指标可计算时,价值感知的决策是可能的,但通常只针对一个较小的、预先选定的关键价值指标集,并且对所需输入的可用性、含义和来源做出了强假设。然而在实践中,困难部分往往是在现实约束下的*可操作化*:决定哪些关键价值指标对于一个新的异构服务来说确实相关,将叙述性需求转化为测量计划,然后从混合证据源(其中一些输入缺失、近似或仅能通过代理获得)计算结果。这些问题激发了端到端可追溯性和具有清晰、面向用户理由的不确定性感知输出。
为解决这些差距,本文提出了KPI2KVI,一个由大型语言模型驱动的多智能体工作流,能够以通用、可重现且可追溯的方式从服务描述中计算关键价值指标。KPI2KVI使用专门的大型语言模型智能体来:(i) 进行引导式访谈,引出服务意图、上下文、利益相关者和潜在价值影响;(ii) 将服务映射到受控的关键价值指标分类法,并通过人在回路中的细化来最终确定关键价值指标范围;(iii) 为选定的关键价值指标生成一个紧凑的、服务特定的关键绩效指标证据计划,并收集/结构化由此产生的测量值及其出处;以及 (iv) 为每个关键价值指标计算具有显式{精确值,最小值,最大值}边界和简短理由(引用所使用的精确关键绩效指标输入和假设)的值。通过将大型语言模型语义理解与确定性分阶段管道以及持久化结构化工件相结合,KPI2KVI系统地弥合了利益相关者价值期望与可测量证据之间的鸿沟,并使不确定性、假设和计算步骤变得显式、可审计。
本文其余部分组织如下。第二部分回顾了关于关键价值指标概念、框架和基于优化的可操作化的相关工作。第三部分详细介绍了KPI2KVI工作流和架构。第四部分通过模拟评估了该方法。第五部分总结并展望了未来工作方向。
## II. 文献综述
在第六代网络中,*服务*是面向用户或垂直行业的端到端能力,通过在异构领域(边缘/云、地面/非地面)之间链式连接功能来实现,并通过服务等级协议或基于意图的抽象进行治理[3 (https://arxiv.org/html/2605.22825#bib.bib14),22 (https://arxiv.org/html/2605.22825#bib.bib11),4 (https://arxiv.org/html/2605.22825#bib.bib21),5 (https://arxiv.org/html/2605.22825#bib.bib22)]。因此,服务请求将功能目标与工作负载特征以及对延迟、吞吐量/数据速率、可靠性/可用性、覆盖范围、定位、隐私和安全性的严格*要求*(通常是上下文相关的)结合在一起[3 (https://arxiv.org/html/2605.22825#bib.bib14),22 (https://arxiv.org/html/2605.22825#bib.bib11),19 (https://arxiv.org/html/2605.22825#bib.bib17),18 (https://arxiv.org/html/2605.22825#bib.bib18),8 (https://arxiv.org/html/2605.22825#bib.bib19),9 (https://arxiv.org/html/2605.22825#bib.bib20),7 (https://arxiv.org/html/2605.22825#bib.bib23)]。在基于意图的表述中,服务可能被分解为任务并映射到意图类别,以使需求可机器操作且可比较[3 (https://arxiv.org/html/2605.22825#bib.bib14)]。关键绩效指标是衡量性能的技术性、可量化指标(例如延迟、吞吐量、丢包率),通常以包含可容忍阈值的期望值形式指定[16 (https://arxiv.org/html/2605.22825#bib.bib4),22 (https://arxiv.org/html/2605.22825#bib.bib11)]。关键价值指标通过估计被启用(或损害)的社会价值(如可持续性、包容性、隐私/机密性和信任)来补充关键绩效指标[22 (https://arxiv.org/html/2605.22825#bib.bib11),21 (https://arxiv.org/html/2605.22825#bib.bib7)]。由于许多价值维度在运行时无法直接观测,关键价值指标通常通过基于传感器的测量、定期认证/审计以及基于较低层指标的组合来实现[14 (https://arxiv.org/html/2605.22825#bib.bib1)]。这种关键绩效指标–关键价值指标的分裂推动了超越纯性能工程的价值观驱动型服务设计和评估。
几项工作定义了关键价值指标并提供了高级工作流,而非完全指定的计算管道。Atzori等人[1 (https://arxiv.org/html/2605.22825#bib.bib8)]提出了EthicNet/服务价值,其中利益相关者表达了关键价值指标需求概要,并且关键价值指标应该被端到端监控和组合,但组合操作符仍是开放性的。Pintor等人[14 (https://arxiv.org/html/2605.22825#bib.bib1)](以及[13 (https://arxiv.org/html/2605.22825#bib.bib5)])系统化了架构形式化(基于传感器与认证的关键价值指标、元数据和父子结构)。Wikström等人[21 (https://arxiv.org/html/2605.22825#bib.bib7)]提供了一个从场景/价值引出到关键价值指标表述和分阶段评估的五步框架,而他们的白皮书将关键价值指标定义为用例的*影响尺度*,并链接了关键价值→关键价值指标→使能器→关键绩效指标,明确指出了使用与社会价值之间存在未知的“汇率”[22 (https://arxiv.org/html/2605.22825#bib.bib11)]。Ziegler等人[23 (https://arxiv.org/html/2605.22825#bib.bib9)]提供了定性的关键绩效指标到价值影响映射,而Osman等人[11 (https://arxiv.org/html/2605.22825#bib.bib3)]强调了关键绩效指标代理和商业模式驱动的优先级排序。其他的第六代讨论突出了生态系统/治理驱动因素,但没有规定计算规则[17 (https://arxiv.org/html/2605.22825#bib.bib10),2 (https://arxiv.org/html/2605.22825#bib.bib13),15 (https://arxiv.org/html/2605.22825#bib.bib12)],而企业商业智能工作则侧重于关键绩效指标的聚合/可视化,而非关键绩效指标到关键价值指标的翻译[6 (https://arxiv.org/html/2605.22825#bib.bib2)]。在这些贡献中,评估通常按成熟度分阶段进行:早期技术就绪水平依赖于专家/定性证据,后期技术就绪水平则依赖于测量和更客观的信号[22 (https://arxiv.org/html/2605.22825#bib.bib11)]。
第二组通过嵌入在编排/优化中的显式计算来操作化关键价值指标。De Trizio等人[3 (https://arxiv.org/html/2605.22825#bib.bib14)]将基于意图映射的服务提供建模为多对多匹配问题,结合了关键绩效指标约束(截止时间、吞吐量)与关键价值指标相关约束(预算、风险偏好),并通过熵权TOPSIS方法在成本和网络风险方面对提供商进行排名。Sciddurlo等人[16 (https://arxiv.org/html/2605.22825#bib.bib4)]为服务/资源定义了关键绩效指标向量,通过公式计算关键价值指标组件(环境可持续性、可信度、包容性),并通过精确的ε-约束双目标模型优化关键绩效指标–关键价值指标的权衡;他们还提议将自然语言请求翻译为富含关键绩效指标和关键价值指标的意图。Mertens等人[10 (https://arxiv.org/html/2605.22825#bib.bib6)]提出了基于可持续发展目标索引的关键价值指标,其中“客观”的服务关键价值指标可以通过ISO标准覆盖率进行评分,并与用户偏好配置文件结合。在方法论上,这些工作依赖于归一化和聚合(例如,[3 (https://arxiv.org/html/2605.22825#bib.bib14)]中的相对接近度排名,[16 (https://arxiv.org/html/2605.22825#bib.bib4)]中的加权和关键价值指标聚合和Pareto优化)。
尽管取得了快速进展,但在以通用、可重现的方式计算*服务相关*的关键价值指标方面仍存在差距。愿景/框架工作阐明了关键价值指标概念和治理,但通常没有具体说明如何为一个新服务选择相关关键价值指标,也没有说明如何在没有大量手动建模的情况下从可用证据计算它们[1 (https://arxiv.org/html/2605.22825#bib.bib8),21 (https://arxiv.org/html/2605.22825#bib.bib7),14 (https://arxiv.org/html/2605.22825#bib.bib1)]。定性映射和垂直矩阵传达了优先级,但由于尺度和聚合规则粗糙或主观,难以审计、比较或优化[23 (https://arxiv.org/html/2605.22825#bib.bib9),15 (https://arxiv.org/html/2605.22825#bib.bib12)]。相比之下,面向优化的工作通常固定一个较小的关键价值指标集,并假设在设计时可以获得非平凡的输入(例如,碳排放因子、攻击可能性、认证映射),而这些输入可能不可用或模糊不清[3 (https://arxiv.org/html/2605.22825#bib.bib14),16 (https://arxiv.org/html/2605.22825#bib.bib4),10 (https://arxiv.org/html/2605.22825#bib.bib6)]。在这些流派中,对于缺失/不确定证据的支持有限,从服务描述到计算指标的端到端可追溯性有限,以及从利益相关者价值期望到可测量关键绩效指标证据的系统性桥接有限[22 (https://arxiv.org/html/2605.22825#bib.bib11),11 (https://arxiv.org/html/2605.22825#bib.bib3)]。此外,许多方法既没有提供不确定性边界(例如区间),也没有提供将结果与底层证据联系起来的简洁、面向用户的理由。这些局限性激发了更具操作性和可追溯性的关键绩效指标到关键价值指标计算工作流,使其在不确定性和异构服务下仍保持可用。
## III. 方法
本节介绍KPI2KVI,一个为给定服务计算关键价值指标的多智能体工作流。我们首先定义九阶段工作流及其基于大型语言模型的智能体角色,然后描述实现该工作流的系统架构和编排逻辑,最后通过一个具体示例演示如何为一个基于云的远程医疗视频咨询服务计算一小组关键价值指标。
参见图注图1:KPI2KVI管道:从服务访谈,到关键价值指标类别选择、关键绩效指标生成与值收集、每个关键价值指标的显式边界计算,再到事后咨询,共享内存存储跨阶段的可重用工件。
### III-A 工作流与智能体职责
端到端工作流是一个由九个步骤组成的确定性管道,交替进行会话式步骤(用于引出信息并允许更正)和结构化步骤(用于生成机器可读的工件)。阶段的进展以及在它们之间传递工件的共享内存如图1所示。
#### 关键价值指标类别选择
工作流以*检查器*(步骤1)开始,其*输入*是初始服务描述以及任何后续澄清。其*过程*是一次引导式访谈,引出服务意图、运营上下文、利益相关者和潜在价值影响(例如,隐私/安全期望...相似文章
VAKRA 深度解析:智能体的推理、工具使用与失效模式
本文介绍 VAKRA,一个用于评估企业级环境中 AI 智能体推理与工具使用能力的可执行基准。文章分析了各类失效模式,并详细阐述了该基准涉及 API 链式调用与文档检索的结构设计。
面向知识驱动工具使用工作流的AI代理声明式技能
本文研究了客户服务工作流中工具使用AI代理的编排机制,比较了声明式代理与命令式状态机及基准方法的性能。结果表明检索质量是关键瓶颈,在高质量检索下,声明式技能可提升程序性任务的准确性。
kenn-io/agentsview
agentsview 是一款开源本地工具,用于浏览、搜索和追踪 AI 编码代理的成本。
知识工作的设计与报告基准
本文提出一个三步框架,用于设计和报告知识工作AI的基准,强调基准任务与实际工作活动之间的一致性。它从O*NET数据库中推导出18种工作活动,并分析了三个现有基准(GDPval、OfficeQA Pro、APEX-SWE),以展示基准分数与实际工作能力之间的差距。
面向低延迟多智能体工具调用的有状态推理架构
本文提出了一种用于多智能体工具调用的有状态推理架构,该架构在多次调用之间复用KV缓存,并采用推测解码技术,相较于vLLM和SGLang,在智能体工作流上实现了2.1倍至4.2倍的加速。