缓解基于LLM的智能体中的锚定偏差以实现节能6G自治网络

arXiv cs.AI 2026/06/18 04:00 论文

6g llm-agents anchoring-bias autonomous-networks energy-efficiency network-slicing cognitive-debiasing

摘要

本文提出了一种随机锚定策略，用于缓解基于LLM的智能体中的锚定偏差，以实现节能的6G自治网络，使用轻量级1B参数模型实现了高达25%的节能。

arXiv:2606.18272v1 Announce Type: cross 摘要：本文提出了一种自主智能体资源协商框架，旨在使用大规模语言模型（LLM）智能体在6G架构中实现零接触网络切片。虽然LLM提供了强大的推理能力，但我们证明，这类智能体天生存在锚定偏差，严格遵循初始启发式提案，导致严重的网络过度配置。为了系统地缓解这种认知偏差，我们提出了一种新颖的随机锚定策略，该策略通过截断三参数威布尔分布建模。这种数学上有界的方法无缝集成了采用条件风险价值（CVaR）的突发感知数字孪生（DT），以严格保证服务等级协议（SLA）尾部延迟。为了验证我们的方法，我们引入并证明了\emph{双峰约束避免效用定理}，表明虽然可行协商遵循经典凸界，但高约束场景会经历由逆有理衰减包络控制的相变。使用本地托管的1B参数模型（\texttt{otel-llm-1b-it}）生成的实证结果证实了这些双区界。我们的认知去偏成功瓦解了僵化的协商模式，迫使智能体进行主动探索，以安全地触及SLA边界，并将系统节能提升高达25\%。关键的是，轻量级1B LLM实现了亚秒级推理延迟（平均0.95秒），确保我们的多智能体框架与O-RAN非实时RAN智能控制器（non-RT RIC）的操作时间尺度兼容\footnote{我们的源代码可用于非商业用途，地址为https://github.com/HatimChergui.

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:43

# 缓解基于 LLM 的智能体中的锚定偏差，助力能效型 6G 自治网络
来源：https://arxiv.org/html/2606.18272
Hatim Chergui, Claudia Carballo González, Farhad Rezazadeh, and Merouane Debbah  
H. Chergui 和 C. C. González 就职于 i2CAT 基金会，西班牙巴塞罗那，08034（邮箱：[email protected]）。  
F. Rezazadeh 就职于加泰罗尼亚理工大学（UPC），西班牙巴塞罗那，08034。  
M. Debbah 就职于哈利法大学数字未来研究所，阿联酋阿布扎比，127788。

###### 摘要

本文提出了一种自主智能体资源协商框架，旨在利用大语言模型（LLM）智能体实现 6G 架构中的零接触网络切片。虽然 LLM 提供了强大的推理能力，但我们证明此类智能体天生存在锚定偏差，僵化地坚持初始启发式提案，导致严重的网络过度配置。为系统性地缓解这种认知偏差，我们提出了一种新颖的随机锚定策略，该策略通过截断三参数威布尔分布建模。这种数学上有界的方法无缝集成了采用条件风险价值（CVaR）的突发感知数字孪生（DT），以严格保证严格的服务水平协议（SLA）尾部延迟。为了验证我们的方法，我们引入并证明了**双峰约束规避效用定理**，表明虽然可行的协商遵循经典凸界，但高度受限的场景会经历一个由逆有理衰减包络控制的相变。使用本地托管的 1B 参数模型（otel-llm-1b-it）生成的实证结果证实了这些双域边界。我们的认知去偏置成功打破了僵化的协商模式，迫使智能体主动探索，以安全地利用 SLA 边界，并将系统节能提升高达 25%。至关重要的是，轻量级 1B LLM 实现了亚秒级推理延迟（平均 0.95 秒），确保了我们的多智能体框架与 O-RAN 非实时 RAN 智能控制器（non-RT RIC）的操作时间尺度兼容¹¹我们的源代码可在 https://github.com/HatimChergui/ 处获取，仅供非商业用途。.

## I. 引言

向第六代（6G）网络的过渡显著增加了管理无处不在的连接和严格服务要求的复杂性，暴露了当前网络自动化方法的局限性。在此背景下，6G 无线系统正朝着运营自主治理的愿景发展。为了满足 TM Forum 4 级和 5 级自治（分别代表闭环自治和完全自治）的严苛要求[8]，网络架构超越了传统的自动化范式。这种演进需要部署**智能体系统**[3]。与传统控制器不同，这些由大语言模型（LLM）驱动的实体被设计为在高级目标空间中进行推理、规划和协商，从而能够在高度动态的环境中动态管理切片编排和服务保障。然而，将关键网络操作委托给自主智能体引入了与可靠性、鲁棒性和决策完整性相关的新挑战。

近期的学术研究表明，在这些先进架构中存在一个令人不安的现象：人工智能（AI）智能体经常表现出镜像人类心理扭曲的认知偏差。基于 Tversky 和 Kahneman 关于启发式和系统性错误的奠基性工作[9]，这些偏差可能会危及智能体增强型 6G 系统的集体决策、公平性和安全性。正如 Xie 等人[11] 所观察到的，这些扭曲在作为 6G 去中心化架构蓝图的多智能体系统中尤为普遍。它们的影响波及整个功能管道，体现在四个关键层面。在数据层面，偏差可能源于训练数据中的历史或文化不平衡，例如导致**遗产偏差**，即智能体未能充分利用先进的 6G 能力。在提示层面，框架效应可能会扭曲决策，例如优先考虑频谱效率而牺牲能效或公平性。在推理过程中，智能体可能依赖有缺陷的启发式[6]，表现出诸如可用性驱动的过度配置或威胁检测中的确认偏差等行为。最后，偏差还会影响工具和内存集成，其中近因效应、首因效应或权威效应可能扭曲对历史数据和外部信息源的使用。

因此，认知心理学与自主网络的交叉已成为一个关键研究方向。Chergui 等人[1] 提供了基础性贡献，他们提出了关于 6G 智能体系统中认知偏差的结构化教程。他们的工作为这些偏差建立了数学公式，并在智能体和系统层面提出了缓解策略，并辅以实际的 6G 用例支持。

除了单个智能体错误外，研究还强调了多智能体交互中固有的风险。在 [2] 中，作者证明迭代的智能体讨论可以放大现有的偏差，形成**对话回音室**，其中智能体过早地收敛于一个有偏差的共识。此外，在 [10] 中，作者研究了基于 LLM 的人际冲突解决中的认知偏差，表明模型判断会在有偏差的提示措辞下发生转变。他们提出了 BiasGUARRD，这是一个多智能体框架，用于检测和缓解社会敏感决策中的此类偏差。在 [5] 中，作者同样分析了多智能体辩论在 LLM 推理中的局限性，表明它可能会强化偏差，并提出了一个改进的多智能体提示框架，该框架增强了推理多样性并减少了偏差，从而在战略任务中提高了决策准确性和鲁棒性。Knipper 等人 [4] 提供了对这些问题的实证验证，他们指出，虽然较大的模型（>>32B 参数）倾向于在大约 39.5% 的案例中减少偏差，但更详细的提示——虽然通常有帮助——实际上可能会使某些错误（如过度归因）增加高达 8.8%。

鉴于这些挑战，本文做出了以下关键贡献：

- •**锚定偏差与尾部风险分析**：我们展示了初始提案如何将智能体困在僵化的、过度配置的最优解中。为确保在随机流量突发下严格满足 SLA，我们将条件风险价值（CVaR）集成到智能体的数字孪生（DT）中。
- •**双峰约束规避定理**：我们引入并严格证明了一个新颖的理论框架，描述了效用退化边界中的相变。我们绘制了经验效用损失图，以展示双域行为：可行条件下的经典线性边界和约束密集型环境下的逆有理衰减边界。
- •**截断威布尔缓解策略**：我们通过截断威布尔分布（通过形状参数 `k` 定制）提出了一种自适应、随机化的锚定策略，以安全地探索节能配置并打破僵化的协商模式。
- •**通过 1B LLM 实现 non-RT RIC 兼容性**：利用轻量级的 `otel-llm-1b-it` 模型，我们的多智能体框架以亚秒级响应时间（0.95 秒）执行复杂协商，在严格满足 99.999% 分位数 URLLC 延迟的同时，实现高达 25% 的全局节能。

## II. 网络切片 CVaR 排队模型

### II-A 系统动力学与 Edge-RAN 队列

我们的架构（见图 1）考虑了一个多域网络切片环境，包括一个边缘计算域和一个无线接入网（RAN）。针对特定切片 `i` 的服务请求首先在边缘处理，产生计算延迟 `L_i^edge`。随后，处理后的数据包排队等待通过 RAN 进行无线传输，产生传输延迟 `L_i^RAN`。因此，总端到端（E2E）延迟定义为：

`L_i = L_i^edge + L_i^RAN`。    (1)

边缘域和 RAN 域均在有限容量下运行。每个切片的智能体必须协商分配总可用 RAN 带宽 (`b_tot`) 和边缘 CPU 容量 (`f_tot`)。智能体 `i` 的决策由动作向量 `a_i = (b_i, f_i)` 表示。

[图片：图 1：Edge-RAN 跨域切片模型。]

为建模这些动力学，每个智能体 `i` 维护一个基于排队论的私有 DT。在每个持续时间为 `τ` 的离散时间间隔 `t`，一定比特量 `Λ_{i,t}` 根据时变的、特定试验的随机过程到达边缘：

`Λ_{i,t} = λ_{i,t} · τ`，    (2)

其中平均到达速率 `E[λ_{i,t}]` 保持在服务速率以下以确保队列稳定性。边缘计算队列 `Q^{(e)}_{i,t}` 的演变建模如下：

`Q^{(e)}_{i,t+1} = max(0, Q^{(e)}_{i,t} - D^{(e)}_{i,t}) + Λ_{i,t}`，    (3)

其中 `D^{(e)}_{i,t}` 表示在边缘处理的比特量：

`D^{(e)}_{i,t} = τ · C^{(e)}_{i,t}(f_i) = τ · f_i · C_CPU`。    (4)

RAN 通信队列 `Q^{(r)}_{i,t}` 基于前一计算阶段的输出进行更新：

`Q^{(r)}_{i,t+1} = max(0, Q^{(r)}_{i,t} - D^{(r)}_{i,t}) + min(Q^{(e)}_{i,t} + Λ_{i,t}, D^{(e)}_{i,t})`，    (5)

其中 `D^{(r)}_{i,t}` 是传输的比特量，取决于带宽分配 `b_i` 和随机频谱效率（SE）`η_{i,t}`：

`D^{(r)}_{i,t} = τ · C^{(r)}_{i,t}(b_i, η_{i,t}) = τ · b_i · η_{i,t}`。    (6)

应用利特尔法则，我们在时间范围 `T` 上将平均 E2E 延迟 `L_{i,T}` 定义为总队列长度与平均到达速率的比值：

`L_{i,T} = (1 / (E[Λ_{i,t}] T)) * Σ_{t=1}^T (Q^{(e)}_{i,t} + Q^{(r)}_{i,t})`。    (7)

智能体的目标是优化动作向量 `a_i = (b_i, f_i)`，以在最小化线性功耗成本 `P_i(a_i)` 的同时，将 `L_{i,T}` 维持在 SLA 之内：

`P_i(a_i) = P_static,i + C_BW · b_i + C_CPU · f_i`，    (8)

其中 `C_BW` 和 `C_CPU` 分别是每单位带宽和 CPU 频率的功耗。

### II-B 数字孪生与 CVaR 尾部延迟预测

为确保对流量突发的鲁棒性，智能体的内部 DT 使用延迟分布的条件风险价值（CVaR）来评估提议的动作 `a_i`，而不是使用均值。对于 M/M/1 近似（逗留时间服从指数分布），在 `1-α` 置信水平（例如，对于 99.999% 的 URLLC 可靠性，`α = 0.00001`）下的预期短缺计算公式为：

`CVaR_{1-α}(L_i) = E[L_i] (1 - ln(α))`。    (9)

智能体主要围绕这个严格的 `CVaR` 指标进行协商。如果协商的配置超出 `L_SLA,i`，则会招致极端的效用惩罚 `L_max`。

## III. 智能体协商与双峰边界

当每个智能体 `i` 的初始资源提案——记为向量 `a_i^{(0)} = (b_i^{(0)}, f_i^{(0)})`——系统性地影响后续分配更新时，就会产生锚定偏差。这会阻碍在全局系统约束下探索可行的多资源配置。这种效应在多轮协商中尤为关键，如算法 1 所示。

**算法 1**：具有锚定偏差的双智能体资源协商

**输入**：锚定策略 `S`
**输出**：最终协议 `A = (a_e, a_u)` 或回退

1.  // 初始化
2.  初始化 DT 和智能体 `A_i, ∀i ∈ {e, u}`；
3.  `a_i ← A_i.ProposeAnchor(S), ∀i`；  // `a_i = (b_i, f_i)`
4.  `A ← ∅`；
5.  // 基于回合的协商循环
6.  **for** `r ← 1` **to** `R_max` **do**
7.      `Φ ← (b_e + b_u ≤ b_tot) ∧ (f_e + f_u ≤ f_tot)`；
8.      评估 CVaR 效用 `U_i` 和 SLA 违规情况 `V_i, ∀i`；
9.      **if** `Φ ∧ (∀i, U_i ≥ U_th)` **then**
10.         `A ← (a_e, a_u)`；
11.         **break**；  // 双方协议
12.     **end if**
13.     `δ_base ← δ_max · (R_max - r + 1) / R_max`；  // 衰减步长
14.     **for** `i ∈ {e, u}` **do**
15.         // 顺序上下文推理与类 PID 比例步长
16.         **if** `V_i` **then**
17.             `η ← min(1.0, max(0.25, L_i / L_SLA,i - 1))`；  // 严重程度标度
18.             `δ ← δ_base · η`；
19.             `ctx_i ← DemandInc(δ)`；  // 比例提升
20.         **else if** `¬Φ ∨ V_{-i}` **then**
21.             `δ ← δ_base · c_yield`；
22.             `ctx_i ← Yield(δ)`；  // 硬性让步
23.         **else**
24.             `η ← min(1.0, max(0.1, L_SLA,i / max(1.0, L_i) - 1))`；  // 安全标度
25.             `δ ← δ_base · ω_fine · η`；
26.             `ctx_i ← OptimizeEnergy(δ)`；  // 比例下降
27.         **end if**
28.         `a_i ← A_i.CounterPropose(a_{-i}, r, a_i, ctx_i)`；
29.         // 钳位以维持系统边界
30.         `b_i ← max(b_min, min(b_i, b_tot - b_{-i}))`；
31.         `f_i ← max(f_min, min(f_i, f_tot - f_{-i}))`；
32.         `a_i ← (b_i, f_i)`；
33.     **end for**
34. **end for**
35. **return** `A`；

缓解基于LLM的智能体中的锚定偏差以实现节能6G自治网络

相似文章

从人工引导到自主：面向空间NPU的端到端LLM部署的智能体技能系统

Anchor：缓解智能体基准生成中的工件漂移

语言模型中锚定路径的定位

AutoLLMResearch：通过从低成本学习来优化高成本，训练研究智能体以自动化大型语言模型实验配置

基于LLM的NWDAF：迈向AI原生6G网络智能的一步

提交意见反馈