LLMs帮助机器人理解模糊指令并聚焦关键细节
摘要
MIT CSAIL研究人员开发了掩码逆强化学习(Masked IRL),利用大型语言模型澄清机器人的模糊指令并聚焦环境关键细节,从而减少对大量演示数据的需求。
<p dir="ltr">想象在不久的将来,你在仓库或办公室工作,需要帮助一名新学员掌握工作基础。但难点在于:这个学员是个机器人。为了教导它,你可能会玩一场“展示与讲述”的游戏——即,通过几种不同的方式实际演示如何操作,同时解释你在做什么。</p><p dir="ltr">假设你让机器人在你进行Zoom通话时,把咖啡放到桌上而不打扰你。你希望机器人不要离你和笔记本太近,以免中断会议。为了实现这种行为,机器人需要用清晰展示完整任务的数据进行训练。计算机科学家曾尝试通过记录大量物理演示或编写详细指令来向机器人解释操作任务。但如果两者都缺乏,机器很可能误解它需要做什么。<br><br>人类进行所有这些展示和讲述很费力,因此MIT计算机科学与人工智能实验室(CSAIL)的研究人员自动化了教导机器人的过程,同时自动澄清指令,并且使用的演示数据减少了近五倍。他们的“掩码逆强化学习”(Masked IRL)方法利用大型语言模型(LLM)根据用户演示收集的数据,对模糊提示进行详细说明。另一个LLM则缩小算法应纳入运动计划的细节范围,从而使机器人能在家庭、办公室和工厂中安全完成任务。<br><br>“当人类与机器人交互但不愿详细说明任务的所有细节时,我们的方法就能派上用场,”MIT博士生、CSAIL研究员Minyoung Hwang说,他是介绍该项目的一篇<a href="https://arxiv.org/abs/2511.14565">论文</a>的主要作者。“我们通过让机器理解用户真正想要什么,来最大限度地减少人力投入。”</p><p dir="ltr">据Hwang介绍,Masked IRL可以帮助机器人在人类可能未在提示中描述但至关重要的环境中安全操作。例如,一个从厨房为你拿零食的机器人可能不知道要避免撞到你的笔记本。同样,一个将物品放入不同箱子的工厂机器人必须小心地绕过货架。</p><p dir="ltr">为了在这些情况下学习新任务,Masked IRL使用机器人的传感器捕捉周围环境信息。这些组件还会记录运动学演示的每一步动作——这是一种训练方法,即人类物理移动机器人执行特定动作。这有点像充当机器的物理治疗师,沿着特定方向弯曲关节,向机器人展示如何抓取、移动和放置物体。</p><p dir="ltr">MIT的系统随后调用一个LLM,将这一系列动作(称为轨迹)与最短的可能路径进行比较。该模型还会详细说明提示中可能不明确的地方,将“靠近”这样的请求转变为“靠近桌面表面”。通过轨迹比较和澄清后的指令,LLM开始理解它训练的动作为何对任务重要。<br><br>第二个LLM随后评估环境细节,例如障碍物的位置和机器人目标物体的形状。在此过程中,它“掩盖”(即忽略)它认为与当前任务无关的元素,将每个元素评分标记为“1”(重要)或“0”(不重要)。例如,用户在演示期间是否依靠桌子会被标记为“0”,使其不相关。任何被视为“1”的细节都会被算法纳入最终动作计划。<br><br>这些掩码为Masked IRL在3D和现实世界演示中提供了相较基线方法的显著优势,因为它教会了机器人哪些信息需要优先处理。得益于研究人员的系统,虚拟和真实机器人都能熟练地在障碍物周围操纵物体,例如将咖啡杯绕过笔记本移动到桌上的不同位置。在这些任务中,Masked IRL正确识别了用户未在提示中明确表达的偏好,正确率比可比基线方法高出15%。</p><p dir="ltr">在模拟实验中,CSAIL研究人员还发现Masked IRL是一个快速学习者。它理解如何移动杯子所需的演示次数少于基线方法。他们还发现,当LLM澄清指令而非让机器尝试遵循模糊请求时,机器人表现更好。</p><p dir="ltr">这种更聚焦的方法也很好地迁移到了真实机器人手臂上,能够执行训练阶段未见过的提示。经过50次运动学演示训练后,机器人小心地将杯子移向人类,同时避免撞到用户的电脑——它通过详细说明更一般的“远离”请求而学会了避开这个障碍。它还在“靠近”桌子的同时擦拭桌面,并“远离”人和桌子,将一袋薯片递给用户。</p><p dir="ltr">Masked IRL感知并解释用户未说出的内容,但很快它可能也能“看到”这些内容。CSAIL研究人员计划通过为其配备摄像头,使该方法更具动态性,让机器人能拍摄周围环境的图像。然后它就能高亮并聚焦附近的具体元素。例如,如果你让机器拿起一个玩具,它可能会看到附近的香蕉并忽略它们,然后处理目标物体。</p><p dir="ltr">Hwang与三位CSAIL同事共同撰写了这篇论文:博士生Alexandra Forsey-Smerek ’20, SM ’22;博士后Nathaniel Dennler;以及MIT助理教授Andreea Bobu,她是航空航天学系和CSAIL的成员。他们的工作部分得到了塔塔集团通过MIT生成式AI影响联盟奖以及国防部的资助。他们将在2026年6月的IEEE国际机器人与自动化会议上展示该项目。</p>
查看缓存全文
缓存时间: 2026/06/26 17:12
# LLMs 帮助机器人理解模糊指令并聚焦关键细节
来源:https://news.mit.edu/2026/llms-help-robots-understand-vague-instructions-and-focus-key-details-0626
想象一下在不久的将来,你在仓库或办公室工作,需要帮助一名新员工学习工作基础。问题在于:它是个机器人。要教它,你可能会想玩一个“展示与讲述”的游戏——也就是通过几种不同的方式实际展示如何做某件事,同时解释你在做什么。
假设你让机器人在 Zoom 通话期间把咖啡放在你的办公桌上,但不要打扰你。你更希望机器人不要离你和笔记本电脑太近,以免中断会议。为了实现这种行为,机器人应该用能够清晰展示完整任务的数据进行训练。计算机科学家曾尝试通过录制大量物理演示或编写详细的指导说明,来向机器人解释操作任务。但如果你两者都没有,机器很可能误解它需要做什么。
对人类来说,既要展示又要讲述很费力,因此麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员实现了机器人教学过程的自动化,同时自动澄清指令,并且使用的演示数据几乎减少了五倍。他们的“掩蔽逆强化学习”(Masked IRL)方法利用一个大语言模型(LLM),根据用户演示收集的数据来详细阐述模糊的提示。随后,另一个 LLM 会缩小范围,确定算法应将哪些细节纳入运动规划,从而使机器人能够安全地在家庭、办公室和工厂中完成杂务。
“当人类与机器人互动但不想详细说明任务的所有细节时,我们的方法会派上用场,”麻省理工学院博士生、CSAIL 研究员 Minyoung Hwang 说,他是该项目论文(https://arxiv.org/abs/2511.14565)的第一作者。“我们通过让机器理解用户的真实意图,最大限度地减少了人力投入。”
据 Hwang 称,Masked IRL 可以帮助机器人在存在人类可能未在提示中描述但至关重要的元素的环境中安全移动。例如,一台从厨房为你拿零食的机器人可能不知道要避免撞到你的笔记本电脑。同样,工厂中负责将物品放入不同箱子的机器人必须小心地绕过货架。
为了在这些情境中学习新任务,Masked IRL 使用机器人的传感器捕捉周围环境的信息。这些组件还会记录每次动觉演示的每个动作——这是一种训练方法,人类通过物理移动机器人来完成特定动作。这有点像充当机器人的物理治疗师,将关节向特定方向弯曲,以示范如何抓取、移动和放置物体。
然后,麻省理工学院的系统调用一个 LLM,将此运动序列(称为轨迹)与最短可能路径进行比较。该模型还会详细阐述提示中可能不明确的内容,将“靠得近”这样的请求转化为“靠近桌面表面”。通过轨迹比较和澄清后的指令,LLM 开始理解训练所用的运动为何对该任务重要。
随后,第二个 LLM 评估环境中的细节,例如障碍物的位置和机器人目标物体的形状。在此过程中,它会“掩蔽”(即忽略)那些被认为与当前任务无关的元素,并为每个元素打分:“1”(重要)或“0”(不太重要)。例如,用户在演示过程中是否靠在桌子上会被标为“0”,视为无关。任何被评为“1”的细节都会被算法纳入最终的行动计划。
这些掩蔽使得 Masked IRL 在 3D 和现实世界演示中都相比同类基线方法具有关键优势,因为它教会了机器人哪些信息需要优先处理。通过研究人员的系统,虚拟机器人和真实机器人均能熟练地绕过障碍物移动物体,例如将咖啡杯绕过笔记本电脑移动到桌子上的不同位置。在这些任务中,Masked IRL 正确识别用户未在提示中明确表达的偏好的频率,比同类基线方法高出最多 15%。
在模拟实验中,CSAIL 的研究人员还发现 Masked IRL 学习速度很快。相比基线方法,它需要更少的演示就能理解如何移动杯子。他们还发现,当 LLM 澄清指令时,机器人的表现优于让机器尝试遵循模糊请求的做法。
这种更集中的方法也很好地迁移到了真实的机械臂上,使其能够执行训练阶段未见过的提示。经过 50 次动觉演示训练后,机器人小心地将一个杯子移向人类,同时避开与用户计算机相撞——通过详细阐述更通用的“远离”请求,机器人学会了避开这个障碍物。它还能在“紧贴”桌面的同时擦拭桌子,并在“远离”人类和桌面的同时将一袋薯片递给用户。
Masked IRL 能够感知并解释用户未说出口的内容,但很快它可能也能“看到”这些内容。CSAIL 的研究人员计划通过为其配备摄像头,使该方法更具动态性,让机器人能够拍摄周围环境的图像。这样它就能突出显示并聚焦于附近的特定元素。例如,如果你让机器拿起一个玩具,它可能会看到附近有些香蕉,但在处理目标物体前忽略它们。
Hwang 与三位 CSAIL 同事共同撰写了这篇论文:博士生 Alexandra Forsey-Smerek ’20, SM ’22;博士后 Nathaniel Dennler;以及麻省理工学院航空航天学系和 CSAIL 的助理教授 Andreea Bobu。他们的工作部分得到了塔塔集团通过麻省理工学院生成式人工智能影响联盟奖以及国防部的资助。他们将在 2026 年 6 月的 IEEE 国际机器人与自动化大会上展示该项目。
相似文章
@ickma2311:CMU 高级 NLP:强化学习 我一直好奇 RL 如何作用于大模型,而这门 CMU 课程让我豁然开朗……
CMU 高级 NLP 课程讲清了强化学习如何优化整个输出的奖励(正确性、有用性、安全性),而非预训练/微调阶段的下一个 token 预测。
改进前沿大语言模型中的指令层级
OpenAI提出了一种利用指令层级任务的训练方法,通过教导模型根据信任级别(系统 > 开发者 > 用户 > 工具)正确优先处理指令,以提高大语言模型的安全性和可靠性。该方法通过强化学习使用名为IH-Challenge的新数据集,应对提示注入攻击并增强安全可控性。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
从受训者到训练者:LLM为多智能体推理强化学习设计的训练环境
本文介绍了LLM-as-Environment-Engineer框架,该框架使LLM能够为多智能体推理任务中的强化学习设计自己的训练环境,实现自我改进训练,其性能超越更大的专有模型。
机器人需要的不仅仅是VLA和世界模型
本文立场论文认为,推进机器人智能需要将非结构化的行为数据通过专门的接口进行整合,用于标注、具身映射、世界建模和奖励推断,而不是仅仅依赖扩展视觉-语言-动作(VLA)模型和世界模型。