AI系统学会让仓库机器人交通顺畅运行

MIT News — Artificial Intelligence 2026/03/26 04:00 论文

robotics reinforcement-learning warehouse-automation mit logistics traffic-control

摘要

来自MIT和Symbotic的研究人员开发了一种深度强化学习系统，用于优化自主仓库中的机器人交通。该系统通过动态优先调度机器人来避免拥堵，实现了比现有方法高出25%的吞吐量提升。

在一座巨型自主仓库内，数百台机器人在过道中穿梭往来，收集和分发货物，以满足源源不断的客户订单。在这繁忙的环境中，即使是小小的交通堵塞或轻微碰撞，也可能像滚雪球一样演变成严重的大面积延误。为了避免这种效率雪崩，来自MIT和科技公司Symbotic的研究人员开发了一种新方法，能够自动保持机器人车队顺畅运行。他们的方法会根据拥堵的形成情况，实时学习哪些机器人应该优先通行，并动态调整以优先处理那些即将被困住的机器人。通过这种方式，系统可以提前重新规划机器人的路线，从而避开瓶颈。该混合系统利用深度强化学习——一种用于解决复杂问题的强大人工智能方法——来确定哪些机器人应该获得优先权。随后，一个快速可靠的规划算法向机器人下达指令，使它们能够在不断变化的环境中迅速做出反应。在基于实际电商仓库布局的仿真中，这种新方法实现了比其他方法高出约25%的吞吐量。重要的是，该系统能够快速适应新环境，包括不同数量的机器人或各异的仓库布局。"在制造和物流领域存在大量决策问题，企业依赖人类专家设计的算法。但我们已经证明，借助深度强化学习的力量，我们可以实现超人类的表现。这是一种非常有前景的方法，因为在这些大型仓库中，即使吞吐量仅提升2%或3%，也能产生巨大的影响，"MIT信息与决策系统实验室（LIDS）研究生、该论文第一作者Han Zheng表示。论文的其他作者包括：LIDS博士后Yining Ma、Symbotic的Brandon Araki和Jingkai Chen，以及资深作者Cathy Wu。Cathy Wu是MIT土木与环境工程系（CEE）及数据、系统与社会研究所（IDSS）的1954届职业发展副教授，同时也是LIDS成员。该研究<a href="https://jair.org/index.php/jair/article/view/20611" target="_blank">于今日发表</a>在《Journal of Artificial Intelligence Research》上。重新规划机器人路线在电商仓库中同时协调数百台机器人绝非易事。这一问题尤为复杂，因为仓库是动态环境，机器人在到达目标地点后会不断接收新任务。它们在离开和进入仓库作业区时需要被快速重新定向。企业通常利用人类专家编写的算法来确定机器人应该在何时何地移动，以最大化其处理的包裹数量。但一旦发生拥堵或碰撞，企业可能别无选择，只能关闭整个仓库数小时来手动解决问题。"在这种情况下，我们无法对未来做出精确预测。我们只知道未来可能发生什么，比如 incoming 的包裹或未来订单的分布。随着仓库运营的进行，规划系统需要适应这些变化，"Zheng说道。MIT研究人员通过机器学习实现了这种适应性。他们首先设计了一个神经网络模型，用于观察仓库环境并决定如何为机器人分配优先级。他们使用深度强化学习来训练该模型——这是一种试错方法，模型在模拟真实仓库的仿真环境中学习控制机器人。模型因做出能够提高整体吞吐量同时避免冲突的决策而获得奖励。随着时间的推移，神经网络学会了高效协调众多机器人。"通过与受真实仓库布局启发的仿真环境进行交互，我们的系统获得反馈，我们利用这些反馈使其决策更加智能。训练好的神经网络随后可以适应不同布局的仓库，"Zheng解释道。该系统旨在捕捉每个机器人路径中的长期约束和障碍，同时考虑机器人在仓库中移动时的动态交互。通过预测当前和未来的机器人交互，该模型能够在拥堵发生之前就规划好规避方案。在神经网络决定了哪些机器人应该获得优先权之后，系统采用经过验证的规划算法来告诉每台机器人如何从一点移动到另一点。这种高效的算法帮助机器人在不断变化的仓库环境中快速反应。这种方法的结合至关重要。"这种混合方法建立在课题组前期工作的基础上，旨在实现机器学习与经典优化方法的最佳结合。纯机器学习方法在解决复杂优化问题时仍存在困难，而让人类专家设计有效方法又极其耗时耗力。但将两者结合，以正确的方式利用专家设计的方法，可以极大地简化机器学习任务，"Wu表示。克服复杂性在训练好神经网络后，研究人员在与训练时所见的不同的仿真仓库中测试了该系统。由于工业仿真对于这一复杂问题而言效率过低，研究人员自行设计了环境来模拟实际仓库中发生的情况。平均而言，与传统算法以及随机搜索方法相比，他们基于混合学习的方法在每台机器人交付包裹数量方面实现了高出25%的吞吐量。他们的方法还能生成可行的机器人路径规划，克服传统方法造成的拥堵。"特别是当仓库中的机器人密度上升时，复杂性呈指数级增长，这些传统方法很快就开始失效。在这些环境中，我们的方法要高效得多，"Zheng表示。虽然他们的系统距离实际部署还有很长的路要走，但这些演示凸显了在仓库自动化中使用机器学习引导方法的可行性和优势。未来，研究人员希望将任务分配纳入问题框架，因为确定哪个机器人完成哪项任务会影响拥堵情况。他们还计划将系统扩展到拥有数千台机器人的更大规模仓库。该研究由Symbotic资助。

查看原文

查看缓存全文

缓存时间: 2026/05/08 09:02

# AI系统学会让仓库机器人交通顺畅运行来源：https://news.mit.edu/2026/ai-system-keeps-warehouse-robot-traffic-running-smoothly-0326 在巨型自动化仓库内部，数百台机器人在通道中穿梭往来，收集和分发商品以完成源源不断的客户订单。在这种繁忙的环境中，即使是小小的交通堵塞或轻微碰撞，也可能像滚雪球一样演变成大规模的减速。为了避免这种效率雪崩，来自MIT和科技公司Symbotic的研究人员开发了一种新方法，能够自动保持机器人车队顺畅运行。该方法根据拥堵的形成情况，实时学习哪些机器人应该优先通行，并自适应地优先处理即将被困住的机器人。通过这种方式，系统可以提前重新规划机器人路线以避开瓶颈。这个混合系统利用深度强化学习——一种用于解决复杂问题的强大人工智能方法——来确定哪些机器人应该优先通行。随后，一个快速可靠的规划算法向机器人下达指令，使其能够在不断变化的环境中快速响应。在基于实际电商仓库布局的模拟中，这种新方法相比其他方法实现了约25%的吞吐量提升。重要的是，该系统能够快速适应新环境，包括不同数量的机器人或不同的仓库布局。 "在制造和物流领域存在大量决策问题，企业依赖人类专家设计的算法。但我们已经证明，借助深度强化学习的力量，我们可以实现超越人类的表现。这是一种非常有前景的方法，因为在这些巨型仓库中，即使吞吐量仅提升2%或3%，也能产生巨大的影响，"MIT信息与决策系统实验室（LIDS）的研究生、该论文的第一作者Han Zheng说道。论文的其他作者包括：LIDS博士后Yining Ma；Symbotic的Brandon Araki和Jingkai Chen；以及资深作者Cathy Wu，她是MIT土木与环境工程系（CEE）和数据、系统与社会研究所（IDSS）的1954届职业发展副教授，同时也是LIDS成员。该研究发表于今天的《Journal of Artificial Intelligence Research》（https://jair.org/index.php/jair/article/view/20611）。 **重新规划机器人路线** 在电商仓库中同时协调数百台机器人绝非易事。这个问题尤其复杂，因为仓库是动态环境，机器人在到达目标后会不断接收新任务。它们需要在离开和进入仓库作业区时被快速重新定向。企业通常利用人类专家编写的算法来确定机器人应该在何时何地移动，以最大化其处理的包裹数量。但如果出现拥堵或碰撞，企业可能别无选择，只能关闭整个仓库数小时来手动解决问题。 "在这种场景下，我们无法精确预测未来。我们只知道未来可能发生什么，就进来的包裹或未来订单的分布而言。随着仓库运营持续进行，规划系统需要对这些变化保持自适应，"Zheng说。 MIT研究人员通过机器学习实现了这种自适应性。他们首先设计了一个神经网络模型，用于观察仓库环境并决定如何为机器人确定优先级。他们使用深度强化学习来训练这个模型，这是一种试错方法，模型在模拟实际仓库的仿真环境中学习控制机器人。模型因做出提高整体吞吐量同时避免冲突的决策而获得奖励。随着时间的推移，神经网络学会了高效协调多台机器人。 "通过与受真实仓库布局启发的仿真环境交互，我们的系统获得反馈，我们利用这些反馈使其决策更加智能。训练好的神经网络随后可以适应不同布局的仓库，"Zheng解释道。它旨在捕捉每个机器人路径中的长期约束和障碍，同时考虑机器人在仓库中移动时的动态交互。通过预测当前和未来的机器人交互，该模型计划在拥堵发生之前就加以避免。在神经网络决定哪些机器人应该获得优先权后，系统采用经过验证的规划算法来告诉每个机器人如何从一个点移动到另一个点。这种高效的算法帮助机器人在变化的仓库环境中快速反应。这种方法的结合是关键。 "这种混合方法建立在我所在团队的研究基础上，即如何在机器学习和经典优化方法之间实现两全其美。纯机器学习方法仍然难以解决复杂的优化问题，而人类专家设计有效方法又极其耗费时间和人力。但两者结合，以正确方式使用专家设计的方法可以极大地简化机器学习任务，"Wu说。 **克服复杂性** 研究人员训练好神经网络后，在不同于训练时所见环境的模拟仓库中测试了该系统。由于工业仿真对于这一复杂问题来说效率太低，研究人员设计了自己的环境来模拟实际仓库中发生的情况。平均而言，就每台机器人交付的包裹数量而言，他们基于混合学习的方法比传统算法以及随机搜索方法实现了25%的吞吐量提升。他们的方法还能生成可行的机器人路径规划，克服传统方法造成的拥堵。 "特别是当仓库中的机器人密度上升时，复杂性呈指数级增长，这些传统方法很快就开始失效。在这些环境中，我们的方法效率要高得多，"Zheng说。虽然他们的系统距离实际部署还很远，但这些演示凸显了在仓库自动化中使用机器学习引导方法的可行性和优势。未来，研究人员希望将任务分配纳入问题 formulation，因为确定哪个机器人完成每项任务会影响拥堵情况。他们还计划将系统扩展到拥有数千台机器人的更大仓库。这项研究由Symbotic资助。

AI系统学会让仓库机器人交通顺畅运行

相似文章

提升AI智能体的速度与能效

面向仓库SLAM吞吐量控制的离线强化学习

供应链管理中自主AI代理的可靠性与有效性

学习的机器人

AI编程代理可自主指导机器人训练

提交意见反馈