超越预定义学习对象:面向实时自主机器人学习的思维-学习交互模型

arXiv cs.AI 论文

摘要

本文提出了一种面向自主机器人的思维-学习交互模型,使其能够在开放环境中自适应地发现新特征、扩展输出类别、更新学习模型并重构动作流程。实验结果表明,该模型在识别精度、类别形成和动作效率方面均有显著提升。

arXiv:2605.23987v1 公告类型:新 摘要:在开放且不断变化的环境中运行的自主机器人,无法始终依赖预定义的输入、输出和动作流程。尽管现有的学习方法使机器人能够通过环境交互提升性能,但学习对象(如输入特征、识别输出、网络结构、任务目标或动作序列)往往被预先固定。这限制了机器人在长期运行中遇到新特征、新类别或更高效任务流程时的适应能力。为解决此问题,本文提出了一种面向自主机器人的思维-学习交互模型。其核心思想是:思维通过识别潜在变化、选择有用证据、组织训练材料及规划验证动作来引导学习;而学习则通过更新任务知识、特征选择经验、动作策略及未来推理过程来促进思维。基于这种双向机制,机器人能够逐步超越预定义的学习设定,并通过与环境的持续交互调整其识别关系和动作关系。具体而言,该模型支持自适应输入特征发现、输出类别扩展、学习模型更新及动作流程重构。实验结果表明,该模型在特征适应任务中将最终识别准确率从0.419提升至0.845,实现了更高的新类别形成准确率和模型更新成功率,并将动作流程重构中的平均动作长度从13.0降至4.0。在学习增强思维方面,有效证据选择率从0.272提升至0.965,表明学习结果能够有效改善未来的证据选择与推理过程。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:03

# 超越预定义学习对象:面向自主机器人持续更新的思维-学习交互模型

来源:https://arxiv.org/html/2605.23987

Hong Su\. 苏宏与成都信息工程大学计算机科学学院,成都,中国。电子邮件:suguest@126\.com。

###### 摘要

在开放和变化环境中运行的自主机器人不能总是依赖预定义的输入、输出和动作流程。尽管现有的学习方法使机器人能够通过与环境的交互来提升性能,但学习对象通常预先固定,例如输入特征、识别输出、网络结构、任务目标或动作序列。这限制了机器人在长期运行中,当出现新特征、新类别或更高效的任务流程时的适应能力。为解决此问题,本文提出了一种面向自主机器人的思维-学习交互模型。其核心思想是:思维通过识别潜在变化、选择有用证据、组织训练材料和规划验证行动来引导学习;而学习则通过更新任务知识、特征选择经验、行动策略和未来推理过程来促进思维。基于这种双向机制,机器人可以逐步超越预定义的学习设置,并通过与环境的持续交互来调整其识别关系和动作关系。具体而言,该模型支持自适应输入特征发现、输出类别扩展、学习模型更新和动作流程重构。实验结果表明,在特征自适应中,所提出的模型将最终识别准确率从0.419提高到0.845;在新类别形成准确率和模型更新成功率上取得了更高的效果;在动作流程重构中,将平均动作长度从13.0减少到4.0。在学习增强思维方面,有用证据选择率从0.272提高到0.965,表明学习结果能有效改进未来的证据选择和推理。

###### 索引术语:自主机器人学习、思维-学习交互、自适应学习对象、持续更新学习。

## I. 引言

自主机器人[7](https://arxiv.org/html/2605.23987#bib.bib1)[11](https://arxiv.org/html/2605.23987#bib.bib2)预计将在开放和变化的环境中长期运行。在这样的环境中,机器人可能会遇到无法在部署前完全指定的新物体、新任务条件、新环境变化以及新的操作流程。尽管现有的基于学习的方法允许机器人通过与环境的交互来提升性能,但其中许多方法仍然依赖于预定义的学习设置。例如,输入特征、输出类别、学习模型、任务目标和动作序列通常是预先固定的。机器人主要在此预定义框架内学习模型参数或行动策略。然而,这种假设在开放环境中可能不成立。最初被忽略的特征可能在之后变得对识别很重要。当出现新的物体类型或任务状态时,预定义的输出集可能不足。适用于一种任务类型的学习模型在学习对象变化时可能变得不适用。当机器人反复与同一设备或环境交互时,预定义的动作流程也可能变得低效。例如,当机器人操作洗衣机时,它最初可能依赖重复观察和按键来找到快洗模式。在几次成功交互后,它可能发现一个更短的固定动作序列也能达到相同目标。同样,在物体识别中,机器人最初可能使用形状和重量来区分物体,但后来发现颜色或其他特征在特定环境中提供了更有效的线索。这些例子表明,自主机器人学习不应局限于在固定输入和输出下优化固定模型。相反,机器人应该能够学习“应该学习什么”以及“学习框架本身应该如何改变”。在本文中,我们将这种能力称为**持续更新学习**,即机器人根据新观察到的环境证据和积累的交互经验,不断修正自己的学习对象。换句话说,学习对象本身(包括输入、输出、模型和动作流程)应该是自适应的并保持最新。

为解决此问题,本文提出了一种面向持续更新自主机器人学习的思维-学习交互模型。其核心思想是:思维引导学习,学习增强思维。一方面,思维过程帮助机器人识别其当前学习对象可能存在的局限性,选择有用证据,组织学习材料,并规划验证行动。另一方面,学习结果不仅用于提升任务性能,也用于更新思维过程本身。通过这种双向交互,机器人可以逐步改进其任务知识以及决定下一步应该学习什么的能力。

与传统的学习流程不同,所提出的模型将学习视为一个闭环过程。机器人首先观察环境并评估其当前学习对象是否充足。如果发现当前的输入、输出、模型或动作流程不完整或低效,思维模块会生成一个学习计划。然后,机器人从当前观察、历史记忆或与环境主动交互中收集证据。基于收集到的证据,学习模块产生候选学习结果,例如新特征、新输出类别、修改后的模型或重构的动作流程。这些结果在被接受之前需要经过验证。验证通过的结果用于更新学习对象集,并作为经验存储以改进未来的思维。

本文的主要贡献总结如下:

*   ● 提出了一个面向开放环境中自主机器人的思维-学习交互模型。该模型建立了一种双向机制,其中思维引导学习,学习改进思维,使机器人能够决定应该学习什么以及未来推理应该如何改进。
*   ● 将机器人的学习对象从固定的模型参数扩展到自适应的学习对象,包括输入特征、输出类别、学习模型、动作流程及其关系。这使机器人能够超越预定义的学习对象。
*   ● 开发了一个闭环更新过程,以支持开放环境中的持续更新学习。通过思维引导的证据收集、动态学习材料构建、学习结果验证和思维策略改进,机器人可以在长期交互中不断修正其学习对象,并使其识别和动作关系保持最新。

本文的其余部分组织如下:第二部分回顾相关工作。第三部分介绍了所提出的思维-学习交互模型。第四部分描述了学习对象的持续更新适应。第五部分报告了验证结果。第六部分总结了本文。

## II. 相关工作

### II-A. 持续学习与开放世界识别

持续学习旨在使学习系统能够从非平稳数据流中获取新知识,同时不忘记已学知识。现有研究已经探讨了灾难性遗忘、记忆重放、迁移学习、结构可塑性以及稳定性-可塑性权衡等重要问题[10](https://arxiv.org/html/2605.23987#bib.bib4)[3](https://arxiv.org/html/2605.23987#bib.bib5)。这些研究为长期学习系统,特别是在新数据顺序到达时,提供了重要基础。开放世界识别进一步考虑了部署后可能出现新的未知类别的问题。Bendale和Boult[4](https://arxiv.org/html/2605.23987#bib.bib6)形式化地定义了开放世界识别,并强调识别系统应能检测未知类别并逐步添加新类别。这一方向与本文中的输出自适应问题密切相关。然而,大多数持续学习和开放世界识别方法仍然假设学习框架在很大程度上是预定义的。例如,输入表示、模型类型、学习过程和自适应逻辑通常在开始学习之前就已确定。相比之下,本文不仅关注在预定义设置内学习新知识,还关注学习对象本身的适应。

### II-B. 机器人学习与自主数据收集

机器人学习研究机器人如何通过与物理环境的交互获得感知、控制和决策能力。强化学习和模仿学习已被广泛用于改进机器人策略。然而,现实世界的机器人学习通常需要昂贵的数据收集、精心设计的环境、复位机制、成功检测器或人类演示。最近关于自主机器人数据收集的工作试图通过允许机器人更独立地收集数据来减少人工监督[8](https://arxiv.org/html/2605.23987#bib.bib14)。AutoRT也展示了基础模型可以帮助协调多个机器人在未见过的环境中收集多样化的真实世界数据[1](https://arxiv.org/html/2605.23987#bib.bib13)。这些研究表明,自主数据收集对于可扩展的机器人学习非常重要。然而,其主要关注点通常在于为训练现有策略或模型收集更多有用的数据。所提出的模型强调一个不同但互补的问题:机器人如何决定应该收集什么证据,以及收集到的证据应该如何改变学习框架本身。

### II-C. 用于机器人推理与规划的大型语言模型

大型语言模型[9](https://arxiv.org/html/2605.23987#bib.bib3)最近已被应用于机器人任务规划、指令理解、决策制定和具身控制。SayCan将语言模型知识与基于可供性的价值函数相结合,使得高层语言计划可以落地到可行的机器人动作上[2](https://arxiv.org/html/2605.23987#bib.bib9)。Code as Policies使用语言模型从自然语言命令生成机器人策略代码,使机器人能够组合控制逻辑并使用外部库进行空间和几何推理[6](https://arxiv.org/html/2605.23987#bib.bib10)。最近的综述也表明,LLMs越来越多地用于机器人感知、规划、控制和人机交互[5](https://arxiv.org/html/2605.23987#bib.bib7)[13](https://arxiv.org/html/2605.23987#bib.bib8)。这些工作证明了LLMs可以为机器人提供强大的推理和规划能力。然而,许多基于LLM的机器人系统主要将语言模型用作规划器、控制器或代码生成器。本文中的思维模块扮演着不同的角色。它不仅为当前任务生成计划,还通过识别应该学习什么、选择证据、构建学习材料和验证候选更新来引导学习。

### II-D. 视觉-语言-动作模型与开放式具身智能体

视觉-语言-动作模型将视觉感知、语言理解和动作生成整合到机器人控制中。RT-2展示了通过将动作表示为token并将视觉-语言模型与机器人轨迹数据共同微调,可以将网络规模的视觉-语言知识迁移到机器人控制[14](https://arxiv.org/html/2605.23987#bib.bib11)。这类模型提高了泛化能力,使机器人能够响应新物体和语言指令。开放式具身智能体也为长期自主学习提供了有用的启示。例如,Voyager在Minecraft中使用大型语言模型构建了一个具身终身学习智能体。它利用自动课程、技能库以及与环境反馈的迭代提示来获取和复用技能[12](https://arxiv.org/html/2605.23987#bib.bib12)。这些方法展示了技能积累、记忆和反馈驱动改进的价值。然而,这些研究主要侧重于改进具身任务性能、技能获取或泛化能力。所提出的模型则侧重于一种更明确的思维-学习交互机制。它将学习模型、输入特征、输出类别和动作流程视为自适应对象。同时,它也将思维过程本身视为可以通过学习来改进的东西。

### II-E. 与现有研究的比较

上述研究为开放环境下的自主机器人学习提供了重要基础。持续学习和开放世界识别解决了增量知识获取和未知类别发现的问题。机器人学习和自主数据收集解决了机器人如何从物理交互中获取经验的问题。基于LLM的机器人技术提供了推理和规划能力,而VLA模型和开放式智能体则展示了具身泛化和技能积累的有前景方向。然而,这些方向通常强调问题的一个部分:学习新类别、收集数据、生成计划或获取技能。相比之下,本文聚焦于思维与学习之间的交互。所提出的模型认为,机器人不仅应该在预定义的输入、输出、模型和动作流程内学习,还应该学习这些学习对象本身应该如何改变。思维引导证据收集和学习材料构建,而学习结果则同时更新任务知识和未来的思维策略。

## III. 思维-学习交互模型

### III-A. 概述

在开放环境中运行的自主机器人通常需要处理无法在部署前完全指定的情况。在许多现有的基于学习的系统中,输入特征、输出类别、任务目标、学习模型和动作流程是预先定义的。然后机器人在这个预定义空间内进行学习。然而,当环境随时间变化时,这些预定义设置可能变得不足。新特征可能对识别有用,可能需要添加新的输出,模型可能需要更新,并且通过长期交互可能发现更高效的动作流程。为解决此问题,本文提出了一种思维-学习交互模型。其基本思想是,学习不应被视为一个仅由固定训练数据或预定义奖励驱动的孤立过程。相反,学习由一个思维过程引导,该过程识别应该学习什么、为什么要学习以及如何收集有用的证据。同时,学习的结果用于改进思维过程本身,使机器人在未来的任务中能够更有效地推理。

所提出的模型包含两个紧密关联的方向。第一个方向是**思维引导的学习**。在此过程中,思维模块观察当前任务状态,比较当前的学习设置与环境需求,

相似文章

机器人学习中的世界模型:全面综述

Hugging Face Daily Papers

本综述全面回顾了机器人学习中世界模型的文献,涵盖其在策略学习、规划和模拟中的作用。文章突出了预测建模在具身智能体中的关键范式、基准测试及未来发展方向。

AIPO:通过与主动交互学习推理

arXiv cs.CL

本文介绍了 AIPO,一种强化学习框架,通过允许模型在探索过程中主动咨询协作智能体,从而克服能力边界,提升大语言模型的推理能力。

学习建模他人思维

OpenAI Blog

OpenAI 和牛津大学研究人员提出了 LOLA(Learning with Opponent-Learning Awareness),这是一种强化学习方法,使智能体能够建模并考虑其他智能体的学习,在迭代囚徒困境和硬币游戏等多智能体博弈中发现合作策略。

学习的机器人

OpenAI Blog

# 学习的机器人 来源:[https://openai.com/index/robots-that-learn/](https://openai.com/index/robots-that-learn/) 该系统由两个神经网络驱动:视觉网络和模仿网络。视觉网络接收来自机器人摄像头的图像,并输出表示物体位置的状态。如[前所述⁠\(在新窗口中打开\)](https://blog.openai.com/spam-detection-in-the-physical-world/),视觉网络使用数十万个模拟