LabVLA:在科学实验室中落地视觉-语言-动作模型

Hugging Face Daily Papers 论文

摘要

LabVLA是一种面向科学实验室自动化的视觉-语言-动作模型,采用两阶段训练方法,结合动作令牌预训练与流匹配。通过在LabUtopia基准上利用模拟数据弥合家庭演示与实验室特定任务之间的差距,它实现了最先进的成功率。

科学实验室越来越依赖AI系统对实验进行推理,但实际进行科学操作的物理行为仍远超其能力范围。AI能够帮助阅读文献、生成假设和规划实验方案,然而在实验台上执行这些方案仍需要人类操作员。视觉-语言-动作(VLA)模型为书面方案与机器人执行之间提供了一种可能的接口,但现有策略主要基于家庭和桌面的示范数据进行训练,很少涉及科学实验室中常见的仪器、透明液体或固定流程的实验方案。要弥合这一差距,既需要实验室专用的监督数据,也需要一个能够兼容执行实验方案时所用多种机器人形态的统一学习框架。因此,我们识别出数据和具身性是与模型设计并列的核心瓶颈。在数据方面,我们构建了RoboGenesis——一个基于仿真的工作流和数据引擎,它由原子技能组合出配置好的实验室工作流,进行验证与筛选,并输出支持多种机器人配置的结构化示范数据。在策略方面,我们提出了LabVLA,采用两阶段训练方法:首先通过FAST动作令牌预训练,使Qwen3-VL-4B-Instruct主干网络在学习任何连续控制之前具备动作感知能力;随后通过流匹配后训练,在知识隔离条件下附加一个DiT动作专家。在LabUtopia基准上,无论是分布内还是分布外设定,LabVLA在所有评估基线上均取得了最高的平均成功率。
查看原文
查看缓存全文

缓存时间: 2026/06/12 02:52

论文页面 - LabVLA:在科学实验室中实现视觉-语言-动作模型的落地

来源:https://huggingface.co/papers/2606.13578 作者:

[姓名列表略,保持英文逗号分隔]

摘要

LabVLA 是一种视觉-语言-动作模型,通过结合动作令牌预训练和流匹配的两阶段方法进行训练,利用模拟数据生成和机器人特定学习,在实验室自动化任务上展现出卓越性能。

科学实验室越来越依赖 AI 系统来推理实验,但实际动手进行科学研究的物理操作仍大多超出其能力范围。AI 可以帮助阅读文献、生成假设和规划实验流程,但实验台上的具体操作依然需要人类操作员。视觉-语言-动作(VLA)模型为书面协议与机器人执行之间提供了一种可能的接口,但现有策略主要在家居和桌面演示数据上训练,很少涉及科学实验室中的仪器、透明液体或固定协议工作流。弥合这一差距既需要实验室特定的监督信号,也需要一个能够适应执行实验协议所用多种机器人具体形态的统一学习框架。因此,除了模型设计,我们将数据和具体形态视为核心瓶颈。为解决数据方面的瓶颈,我们构建了 RoboGenesis,这是一个基于模拟的工作流和数据引擎,它从原子技能组合成配置好的实验室工作流,验证并过滤 rollout 结果,并跨支持的机器人配置文件导出结构化的演示数据。在策略方面,我们提出了 LabVLA,采用两阶段训练配方:首先通过 FAST 动作令牌预训练使 Qwen3-VL-4B-Instruct 骨干网络在连续控制学习之前具备动作感知能力,然后在知识隔离下通过流匹配后训练附加一个 DiT 动作专家。在 LabUtopia 基准上,LabVLA 在分布内和分布外设置下均达到了所有评估基线中最高的平均成功率。

查看 arXiv 页面 (https://arxiv.org/abs/2606.13578) 查看 PDF (https://arxiv.org/pdf/2606.13578) 项目页面 (https://zjunlp.github.io/LabVLA/) GitHub (https://github.com/zjunlp/LabVLA) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13578)

在你的agent中获取此论文:

hf papers read 2606\.13578

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.13578 即可从此页面链接。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.13578 即可从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.13578 即可从此页面链接。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers

HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。

TBD-VLA: 时序块扩散视觉语言动作模型

Hugging Face Daily Papers

TBD-VLA 提出了一种离散的视觉-语言-动作框架,结合了块扩散与自回归生成,以实现高效的时序动作建模和更快的推理速度,在仿真和真实世界的操作任务中显著优于之前的 VLA 方法。