一种结合大语言模型和思维链的自主AI框架，用于无人机辅助物流调度与移动边缘计算

arXiv cs.AI 2026/05/14 04:00 论文

large-language-models chain-of-thought uav logistics-scheduling mobile-edge-computing ai-framework agentic-ai

摘要

本文提出了一种自主AI框架，利用大语言模型和思维链推理来优化无人机辅助的物流调度与移动边缘计算，旨在提高制造物流中的效率和资源分配。

arXiv:2605.13221v1 公告类型：新摘要：在云制造中，无人机（UAV）既可以支持产品收集，也可以支持移动边缘计算（MEC）。这一联合操作形成了一个混合调度问题，其中物理物流决策与计算任务调度相互耦合。本文中，无人机从制造工位收集成品并将其运回中央仓库。同时，这些工位上的工业传感器设备产生的计算任务在本地、无人机上处理，或通过无人机卸载到云端。这种耦合使得问题具有挑战性。无人机只有在工位的服务窗口内才能提供MEC服务，因此路径决策直接决定了何时可以使用无人机辅助卸载。路径决策还会影响无人机的能量预算，以及在任务截止时间约束下用于计算任务执行的机载计算和通信资源的可用性。为此，我们提出了一个由两个部分组成的自主AI辅助优化框架。首先，我们开发了一个自主AI，它结合了大语言模型、检索增强生成和思维链推理，将用户输入转化为混合调度问题的可解释数学公式。其次，我们设计了一种基于近端策略优化（PPO）的分层深度强化学习方法，其中上层学习无人机路径，下层优化每个时间段的任务执行和资源分配。仿真结果表明，所提出的框架能够生成更一致的公式，同时分层PPO在最后500个回合中实现了99.6%的完全产品收集率，并保持了100%的截止时间满足率，其性能比优势演员-评论家方法更稳定。

查看原文

查看缓存全文

缓存时间: 2026/05/14 06:15

# 一种基于大语言模型和思维链的智能体AI框架，用于无人机辅助物流调度与移动边缘计算
来源：https://arxiv.org/html/2605.13221
符号描述决策变量bk,τ,t,ubhb\_\{k,\\tau,t,u\}^\{\\mathrm\{bh\}\}无人机→云端 分配速率（比特/秒）。bk,τ,t,uulb\_\{k,\\tau,t,u\}^\{\\mathrm\{ul\}\}工业传感器设备→无人机 分配速率（比特/秒）。cmc\_\{m\}二元变量：站点 mm 是否被收集。δk,τ,t\\delta\_\{k,\\tau,t\}二元变量：任务 (k,τ)(k,\\tau) 在时隙 tt 完成。ηu,m,t\\eta\_\{u,m,t\}二元变量：无人机 uu 在时隙 tt 服务站点 mm。fk,τ,t,ucldf\_\{k,\\tau,t,u\}^\{\\mathrm\{cld\}\}通过无人机 uu 分配的云端计算资源（工作单元/秒）。fk,τ,t,uuavf\_\{k,\\tau,t,u\}^\{\\mathrm\{uav\}\}分配给无人机 uu 的计算资源（工作单元/秒）。fk,τ,tlocf\_\{k,\\tau,t\}^\{\\mathrm\{loc\}\}本地分配的计算资源（工作单元/秒）。gk,τ,ug\_\{k,\\tau,u\}二元变量：任务 (k,τ)(k,\\tau) 通过无人机 uu 在云端执行。pk,τ,up\_\{k,\\tau,u\}二元变量：任务 (k,τ)(k,\\tau) 在无人机 uu 上处理。ζk,τ\\zeta\_\{k,\\tau\}二元变量：任务 (k,τ)(k,\\tau) 在本地处理。ιk,τ,ufh\\iota\_\{k,\\tau,u\}^\{\\mathrm\{fh\}\}二元变量：无人机 uu 被用作任务 (k,τ)(k,\\tau) 的第一跳。su,rus\_\{u\},\\ r\_\{u\}无人机 uu 的仓库出发/返回时间。Tk,τT\_\{k,\\tau\}任务完成时间。Tu,marr,Tu,mdepT\_\{u,m\}^\{\\mathrm\{arr\}\},\\ T\_\{u,m\}^\{\\mathrm\{dep\}\}无人机 uu 在站点 mm 的到达/离开时间。xu,i,jx\_\{u,i,j\}二元变量：无人机 uu 从 ii 移动到 jj。yu,my\_\{u,m\}二元变量：站点 mm 被分配给无人机 uu。zk,τz\_\{k,\\tau\}二元变量：任务 (k,τ)(k,\\tau) 满足截止时间。参数αbh\\alpha\_\{\\mathrm\{bh\}\}无人机到云端通信的能量系数。αcmp\\alpha\_\{\\mathrm\{cmp\}\}机载计算的能量系数。αfly,αhov\\alpha\_\{\\mathrm\{fly\}\},\\ \\alpha\_\{\\mathrm\{hov\}\}飞行和悬停的能量系数。αul\\alpha\_\{\\mathrm\{ul\}\}工业传感器设备到无人机通信的能量系数。Bk,τB\_\{k,\\tau\}任务输入大小（比特）。Buul,BubhB\_\{u\}^\{\\mathrm\{ul\}\},\\ B\_\{u\}^\{\\mathrm\{bh\}\}无人机 uu 的上行/回传限制（比特/秒）。γk,t,uul,γt,ubh\\gamma\_\{k,t,u\}^\{\\mathrm\{ul\}\},\\ \\gamma\_\{t,u\}^\{\\mathrm\{bh\}\}有效速率因子（上行/回传）。Δ\\Delta时隙长度。di,jd\_\{i,j\}节点 ii 和 jj 之间的距离。DkD\_\{k\}工业传感器设备 kk 任务的任务截止时间长度。DuD\_\{u\}无人机距离预算。EumaxE\_\{u\}^\{\\max\}无人机 uu 的能量预算。FcldF^\{\\mathrm\{cld\}\}云端计算容量（工作单元/秒）。FklocF\_\{k\}^\{\\mathrm\{loc\}\}工业传感器设备 kk 的本地计算容量（工作单元/秒）。FuuavF\_\{u\}^\{\\mathrm\{uav\}\}无人机 uu 的计算容量（工作单元/秒）。ωcol,ωcmp\\omega\_\{\\mathrm\{col\}\},\\ \\omega\_\{\\mathrm\{cmp\}\}收集价值和任务完成的权重。ωmiss,ωflow\\omega\_\{\\mathrm\{miss\}\},\\ \\omega\_\{\\mathrm\{flow\}\}错过惩罚和流程时间的权重。ωres\\omega\_\{\\mathrm\{res\}\}资源占用成本的权重。QuQ\_\{u\}无人机有效载荷容量。τm\\tau\_\{m\}站点 mm 的最小服务时间。TmissionT\_\{\\mathrm\{mission\}\}任务时域。vflyv\_\{\\mathrm\{fly\}\}无人机飞行速度。vm,wmv\_\{m\},\\ w\_\{m\}站点 mm 的产品价值/重量。Wk,τW\_\{k,\\tau\}任务工作量（工作单元）。
参见标题图1：无人机辅助电子制造示例：两阶段物流协调系统。制造流程包括PCB组装、在线测试、模块集成和最终测试。无人机分两个阶段处理物流：第一阶段在制造前运送物料，第二阶段在制造后收集产品。
### III-A 系统概述

典型的制造流程包括物料交付、制造完成和产品收集。相应地，物流过程分为两个阶段，即第一阶段（物料交付）和第二阶段（产品收集）。本文聚焦第二阶段。具体而言，一支由UU架同质无人机组成的机队从配备地面MEC服务器的中央仓库（以下简称云端）出发，前往MM个地理上分散的制造站点收集成品。同时，这些无人机为部署在站点的工业传感器设备（ISDs）提供MEC服务。所有无人机从仓库出发并返回，以固定高度和恒定速度飞行。每个站点 m∈Sm\\in S 位于 (Xm,Ym)(X\_\{m\},Y\_\{m\})，具有收集奖励 vmv\_\{m\}、产品重量 wmw\_\{m\}，并承载一组工业传感器设备 KmK\_\{m\}。假设所有成品在任务开始时即可收集，而工业传感器设备在离散时间范围内随机生成计算任务。

所考虑的系统将物理物流与计算任务处理耦合。在物流方面（参见 Wing¹¹¹），每架无人机受有效载荷、飞行距离、任务时间和电池能量的限制，并且必须完成基于仓库的收集任务（Li等人[[29]](https://arxiv.org/html/2605.13221#bib.bib60)）。在计算方面，任务执行遵循三层云-边-端架构，任务可以在工业传感器设备本地、服务无人机或通过无人机辅助路径在云端处理（Sun等人[[44]](https://arxiv.org/html/2605.13221#bib.bib59)）。由于无人机辅助处理仅在无人机服务相应站点时可用，因此路由决策直接决定了MEC任务的服务窗口（Jiao等人[[21]](https://arxiv.org/html/2605.13221#bib.bib57)）。因此，系统从两个耦合的角度建模，如下所述：*无人机路由模型*，捕捉无人机收集决策和路由可行性；以及*MEC服务模型*，捕捉在路由引起的服务可用性下的任务执行和资源分配决策。

所提出系统模型的一个代表性应用是电子元器件组装和测试行业，其中地理上分布的站点执行PCB组装、在线测试、模块集成和最终测试等操作。如图1所示，无人机支持两阶段物流：它们首先将原材料或半组装组件运送到站点，然后在处理完成后收集成品并运回中央仓库（Satoglu和Sahin [[42]](https://arxiv.org/html/2605.13221#bib.bib20)）。在两个阶段中，无人机还可以通过在机载执行卸载任务或将任务中继到云端来提供MEC支持，从而支持工业传感和分析任务的及时处理。这种无人机辅助操作非常适合现代制造环境，其中无人机越来越多地用于交付、监控、检查、库存管理和预测性维护（Askerbekov等人[[4]](https://arxiv.org/html/2605.13221#bib.bib24)）。与地面车辆相比，无人机具有三维移动能力，可以到达高处站点、绕过地面障碍物，并且无需专用地面基础设施即可运行，使其在空间受限和复杂的工业环境中非常有效（Walker [[45]](https://arxiv.org/html/2605.13221#bib.bib90)，Mohsan等人[[34]](https://arxiv.org/html/2605.13221#bib.bib21)）。

### III-B 无人机路由模型

无人机路由约束分为三个部分：收集分配与路由一致性、有效载荷与距离预算、以及任务时间可行性。

#### III-B1 收集分配与路由一致性

∑u∈Uyu,m≤1,cm≤∑u∈Uyu,m,\\displaystyle\\sum\_\{u\\in U\}y\_\{u,m\}\\leq 1,\\quad c\_\{m\}\\leq\\sum\_\{u\\in U\}y\_\{u,m\},∀m∈S,\\displaystyle\\forall m\\in S,\(1\)∑i∈Lxu,i,m=∑j∈Lxu,m,j=yu,m,\\displaystyle\\sum\_\{i\\in L\}x\_\{u,i,m\}=\\sum\_\{j\\in L\}x\_\{u,m,j\}=y\_\{u,m\},∀u∈U,∀m∈S,\\displaystyle\\forall u\\in U,\\ \\forall m\\in S,\(2\)∑m∈Sxu,0,m=∑m∈Sxu,m,0,\\displaystyle\\sum\_\{m\\in S\}x\_\{u,0,m\}=\\sum\_\{m\\in S\}x\_\{u,m,0\},∀u∈U\.\\displaystyle\\forall u\\in U\.\(3\)方程1限制每个站点最多分配给一架无人机，并且站点只有在被分配时才被视为已收集。方程2确保站点 mm 恰好在其被分配给无人机 uu 时出现在该无人机的路径上，在这种情况下，无人机 uu 进入并离开该站点恰好一次。方程3确保每架无人机从仓库出发和返回的次数相等。

#### III-B2 有效载荷与距离预算

∑m∈Swmyu,m≤Qu,∑i∈L∑j∈Ldi,jxu,i,j≤Du,∀u∈U\.\\sum\_\{m\\in S\}w\_\{m\}y\_\{u,m\}\\leq Q\_\{u\},\\,\\,\\,\\,\\sum\_\{i\\in L\}\\sum\_\{j\\in L\}d\_\{i,j\}x\_\{u,i,j\}\\leq D\_\{u\},\\,\\,\\,\\forall u\\in U\.\(4\)方程4限制每架无人机分配的总有效载荷重量和总旅行距离。

#### III-B3 任务时间

su=0,ru≤Tmission,\\displaystyle s\_\{u\}=0,\\qquad r\_\{u\}\\leq T\_\{\\mathrm\{mission\}\},∀u∈U,\\displaystyle\\forall u\\in U,\(5\)xu,0,m=1⇒Tu,marr≥su\+d0,mvfly,\\displaystyle x\_\{u,0,m\}=1\\Rightarrow T\_\{u,m\}^\{\\mathrm\{arr\}\}\\geq s\_\{u\}\+\\frac\{d\_\{0,m\}\}\{v\_\{\\mathrm\{fly\}\}\},∀u∈U,∀m∈S,\\displaystyle\\forall u\\in U,\\ \\forall m\\in S,\(6\)xu,i,j=1⇒Tu,jarr≥Tu,idep\+di,jvfly,\\displaystyle x\_\{u,i,j\}=1\\Rightarrow T\_\{u,j\}^\{\\mathrm\{arr\}\}\\geq T\_\{u,i\}^\{\\mathrm\{dep\}\}\+\\frac\{d\_\{i,j\}\}\{v\_\{\\mathrm\{fly\}\}\},∀u∈U,∀i,j∈S,\\displaystyle\\forall u\\in U,\\ \\forall i,j\\in S,\(7\)xu,m,0=1⇒ru≥Tu,mdep\+dm,0vfly,\\displaystyle x\_\{u,m,0\}=1\\Rightarrow r\_\{u\}\\geq T\_\{u,m\}^\{\\mathrm\{dep\}\}\+\\frac\{d\_\{m,0\}\}\{v\_\{\\mathrm\{fly\}\}\},∀u∈U,∀m∈S,\\displaystyle\\forall u\\in U,\\ \\forall m\\in S,\(8\)Tu,mdep−Tu,marr≥τmyu,m,\\displaystyle T\_\{u,m\}^\{\\mathrm\{dep\}\}\-T\_\{u,m\}^\{\\mathrm\{arr\}\}\\geq\\tau\_\{m\}\\,y\_\{u,m\},∀u∈U,∀m∈S\.\\displaystyle\\forall u\\in U,\\ \\forall m\\in S\.\(9\)方程5规定每架无人机在时间0出发，并必须在任务时域内返回。方程6、7和8确保路径时间与相应的旅行时间一致。在方程7中，排除了 i=ji=j 的情况，因为无需从站点到自身旅行。方程9要求无人机 uu 在其分配的每个站点至少停留一定的最小服务时间。

### III-C MEC服务模型

与MEC服务模型相关的约束涉及任务卸载，包括执行模式选择、完成时间编码、计算和通信资源限制、服务窗口指示器、涉及无人机的处理的服务窗口可行性、截止时间满足以及无人机能量预算。

#### III-C1 执行模式选择

ζk,τ\+∑u∈Upk,τ,u\+∑u∈Ugk,τ,u=1,∀\(k,τ\)∈I\.\\zeta\_\{k,\\tau\}\+\\sum\_\{u\\in U\}p\_\{k,\\tau,u\}\+\\sum\_\{u\\in U\}g\_\{k,\\tau,u\}=1,\\qquad\\forall\(k,\\tau\)\\in\\mathcal\{I\}\.\(10\)方程10要求每个任务恰好选择一种执行模式：本地执行、无人机执行或通过无人机中继的云端执行。

#### III-C2 完成时间编码

zk,τ\\displaystyle z\_\{k,\\tau\}=∑t=τNslot−1δk,τ,t,∀\(k,τ\)∈I,\\displaystyle=\\sum\_\{t=\\tau\}^\{N\_\{\\mathrm\{slot\}\}\-1\}\\delta\_\{k,\\tau,t\},\\qquad\\forall\(k,\\tau\)\\in\\mathcal\{I\},\(11\)Tk,τ\\displaystyle T\_\{k,\\tau\}=∑t=τNslot−1\(t\+1\)Δδk,τ,t\+Tmission\(1−zk,τ\)\.\\displaystyle=\\sum\_\{t=\\tau\}^\{N\_\{\\mathrm\{slot\}\}\-1\}\(t\+1\)\\Delta\\,\\delta\_\{k,\\tau,t\}\+T\_\{\\mathrm\{mission\}\}\(1\-z\_\{k,\\tau\}\)\.\(12\)方程11和12基于时隙选择二元变量 δk,τ,t∈\{0,1\}\\delta\_\{k,\\tau,t\}\\in\\\{0,1\\\} 定义了完成状态指示符 zk,τz\_\{k,\\tau\} 和完成时间 Tk,τT\_\{k,\\tau\}。具体来说，δk,τ,t=1\\delta\_\{k,\\tau,t\}=1 表示任务 (k,τ)(k,\\tau) 在时隙 tt 结束时完成。

#### III-C3 计算和通信资源约束

计算和通信资源受三种类型的约束：每时隙容量限制、模式一致性和累积服务充分性。

(i) 每时隙容量限制

\{∑τ′:\(k,τ′\)∈I,τ′≤tfk,τ′,tloc≤Fkloc,∀k∈K,∀t∈T,∑\(k,τ\)∈I:τ≤tfk,τ,t,uuav≤Fuuav,∀u∈U,∀t∈T,∑u∈U∑\(k,τ\)∈I:τ≤tfk,τ,t,ucld≤Fcld,∀t∈T\.\\displaystyle\\left\\\{\\begin\{aligned\} &\\sum\_\{\\tau^\{\\prime\}:\(k,\\tau^\{\\prime\}\)\\in\\mathcal\{I\},\\ \\tau^\{\\prime\}\\leq t\}f\_\{k,\\tau^\{\\prime\},t\}^\{\\mathrm\{loc\}\}\\leq F\_\{k\}^\{\\mathrm\{loc\}\},&&\\forall k\\in K,\\ \\forall t\\in\\mathcal\{T\},\\\\ &\\sum\_\{\(k,\\tau\)\\in\\mathcal\{I\}:\\tau\\leq t\}f\_\{k,\\tau,t,u\}^\{\\mathrm\{uav\}\}\\leq F\_\{u\}^\{\\mathrm\{uav\}\},&&\\forall u\\in U,\\ \\forall t\\in\\mathcal\{T\},\\\\ &\\sum\_\{u\\in U\}\\sum\_\{\(k,\\tau\)\\in\\mathcal\{I\}:\\tau\\leq t\}f\_\{k,\\tau,t,u\}^\{\\mathrm\{cld\}\}\\leq F^\{\\mathrm\{cld\}\},&&\\forall t\\in\\mathcal\{T\}\.\\end\{aligned\}\\right\.\(13\)\{∑\(k,τ\)∈I:τ≤tbk,τ,t,uul≤Buul,∀u∈U,∀t∈T,∑\(k,τ\)∈I:τ≤tbk,τ,t,ubh≤Bubh,∀u∈U,∀t∈T\.\\displaystyle\\left\\\{\\begin\{aligned\} &\\sum\_\{\(k,\\tau\)\\in\\mathcal\{I\}:\\tau\\leq t\}b\_\{k,\\tau,t,u\}^\{\\mathrm\{ul\}\}\\leq B\_\{u\}^\{\\mathrm\{ul\}\},&&\\forall u\\in U,\\ \\forall t\\in\\mathcal\{T\},\\\\ &\\sum\_\{\(k,\\tau\)\\in\\mathcal\{I\}:\\tau\\leq t\}b\_\{k,\\tau,t,u\}^\{\\mathrm\{bh\}\}\\leq B\_\{u\}^\{\\mathrm\{bh\}\},&&\\forall u\\in U,\\ \\forall t\\in\\mathcal\{T\}\.\\end\{aligned\}\\right\.\(14\)方程13和14将每个时隙中的计算和通信资源分配总量限制在本地、无人机、云端、上行和回传的可用容量范围内。

(ii) 模式一致性

\{0≤fk,τ,tloc≤Fklocζk,τ,∀\(k,τ\)∈I,∀t≥τ,0≤fk,τ,t,uuav≤Fuuavpk,τ,u,∀\(k,τ\)∈I,∀u∈U,∀t≥τ,0≤fk,τ,t,ucld≤Fcldgk,τ,u,∀\(k,τ\)∈I,∀u∈U,∀t≥τ,\\displaystyle\\left\\\{\\begin\{aligned\} &0\\leq f\_\{k,\\tau,t\}^\{\\mathrm\{loc\}\}\\leq F\_\{k\}^\{\\mathrm\{loc\}\}\\,\\zeta\_\{k,\\tau\},&&\\forall\(k,\\tau\)\\in\\mathcal\{I\},\\ \\forall t\\geq\\tau,\\\\ &0\\leq f\_\{k,\\tau,t,u\}^\{\\mathrm\{uav\}\}\\leq F\_\{u\}^\{\\mathrm\{uav\}\}\\,p\_\{k,\\tau,u\},&&\\forall\(k,\\tau\)\\in\\mathcal\{I\},\\ \\forall u\\in U,\\ \\forall t\\geq\\tau,\\\\ &0\\leq f\_\{k,\\tau,t,u\}^\{\\mathrm\{cld\}\}\\leq F^\{\\mathrm\{cld\}\}\\,g\_\{k,\\tau,u\},&&\\forall\(k,\\tau\)\\in\\mathcal\{I\},\\ \\forall u\\in U,\\ \\forall t\\geq\\tau,\\end\{aligned\}\\right\.\(15\)\{0≤bk,τ,t,uul≤Buulιk,τ,ufh,∀\(k,τ\)∈I,∀u∈U,∀t≥τ,0≤bk,τ,t,ubh≤Bubhgk,τ,u,∀\(k,τ\)∈I,∀u∈U,∀t≥τ,ιk,τ,ufh=pk,τ,u\+gk,τ,u\.\\displaystyle\\left\\\{\\begin\{aligned\} &0\\leq b\_\{k,\\tau,t,u\}^\{\\mathrm\{ul\}\}\\leq B\_\{u\}^\{\\mathrm\{ul\}\}\\,\\iota\_\{k,\\tau,u\}^\{\\mathrm\{fh\}\},\\quad\\forall\(k,\\tau\)\\in\\mathcal\{I\},\\ \\forall u\\in U,\\ \\forall t\\geq\\tau,\\\\ &0\\leq b\_\{k,\\tau,t,u\}^\{\\mathrm\{bh\}\}\\leq B\_\{u\}^\{\\mathrm\{bh\}\}\\,g\_\{k,\\tau,u\},\\quad\\forall\(k,\\tau\)\\in\\mathcal\{I\},\\ \\forall u\\in U,\\ \\forall t\\geq\\tau,\\\\ &\\iota\_\{k,\\tau,u\}^\{\\mathrm\{fh\}\}=p\_\{k,\\tau,u\}\+g\_\{k,\\tau,u\}\.\\end\{aligned\}\\right\.\(16\)方程15和16对计算和通信分配施加模式一致性，要求除非选择了相应的执行模式，否则分配必须为零。

(iii) 完成的多时隙充分性
定义 χk,τ\(t\)≜∑r=τtδk,τ,r∈\{0,1\}\\chi\_\{k,\\tau\}

一种结合大语言模型和思维链的自主AI框架，用于无人机辅助物流调度与移动边缘计算

相似文章

网络上的大型语言模型：资源受限下的协作智能

供应链管理中自主AI代理的可靠性与有效性

基于代理型AI的策略驱动物理层系统双层长期优化

用于三维框架系统自动化结构分析的智能体大语言模型

@hwchase17: https://x.com/hwchase17/status/2053157547985834227

提交意见反馈