LabVLA:在科学实验室中落地视觉-语言-动作模型
摘要
LabVLA是一种面向科学实验室自动化的视觉-语言-动作模型,采用两阶段训练方法,结合动作令牌预训练与流匹配。通过在LabUtopia基准上利用模拟数据弥合家庭演示与实验室特定任务之间的差距,它实现了最先进的成功率。
查看缓存全文
缓存时间: 2026/06/12 02:52
论文页面 - LabVLA:在科学实验室中实现视觉-语言-动作模型的落地
来源:https://huggingface.co/papers/2606.13578 作者:
[姓名列表略,保持英文逗号分隔]
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
LabVLA 是一种视觉-语言-动作模型,通过结合动作令牌预训练和流匹配的两阶段方法进行训练,利用模拟数据生成和机器人特定学习,在实验室自动化任务上展现出卓越性能。
科学实验室越来越依赖 AI 系统来推理实验,但实际动手进行科学研究的物理操作仍大多超出其能力范围。AI 可以帮助阅读文献、生成假设和规划实验流程,但实验台上的具体操作依然需要人类操作员。视觉-语言-动作(VLA)模型为书面协议与机器人执行之间提供了一种可能的接口,但现有策略主要在家居和桌面演示数据上训练,很少涉及科学实验室中的仪器、透明液体或固定协议工作流。弥合这一差距既需要实验室特定的监督信号,也需要一个能够适应执行实验协议所用多种机器人具体形态的统一学习框架。因此,除了模型设计,我们将数据和具体形态视为核心瓶颈。为解决数据方面的瓶颈,我们构建了 RoboGenesis,这是一个基于模拟的工作流和数据引擎,它从原子技能组合成配置好的实验室工作流,验证并过滤 rollout 结果,并跨支持的机器人配置文件导出结构化的演示数据。在策略方面,我们提出了 LabVLA,采用两阶段训练配方:首先通过 FAST 动作令牌预训练使 Qwen3-VL-4B-Instruct 骨干网络在连续控制学习之前具备动作感知能力,然后在知识隔离下通过流匹配后训练附加一个 DiT 动作专家。在 LabUtopia 基准上,LabVLA 在分布内和分布外设置下均达到了所有评估基线中最高的平均成功率。
查看 arXiv 页面 (https://arxiv.org/abs/2606.13578) 查看 PDF (https://arxiv.org/pdf/2606.13578) 项目页面 (https://zjunlp.github.io/LabVLA/) GitHub (https://github.com/zjunlp/LabVLA) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13578)
在你的agent中获取此论文:
hf papers read 2606\.13578
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.13578 即可从此页面链接。
引用此论文的数据集 0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.13578 即可从此页面链接。
引用此论文的 Spaces 0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.13578 即可从此页面链接。
包含此论文的收藏 0
没有收藏包含此论文
将此论文添加到一个收藏 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
AffordanceVLA: 一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型
AffordanceVLA引入了一个统一框架,利用结构化可供性预测作为中间表示,结合视觉-语言模型和混合Transformer架构,以改进机器人操作中的感知-动作映射。
AR-VLA: 面向视觉-语言-动作模型的真正自回归动作专家
提出了AR-VLA,一个自回归动作专家,它通过长期记忆生成连续的、具有上下文感知能力的机器人策略训练的动作序列,相比反应式VLA模型,提高了轨迹平滑度和任务成功率。
EventVLA: 事件驱动的视觉证据记忆用于长时域视觉-语言-动作策略
EventVLA 提出了一种稀疏视觉证据记忆框架用于长时域机器人操作,相较于最先进的记忆增强型VLA,平均成功率提升了40%。
视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
MotionVLA:用于人形机器人运动的视觉-语言-动作模型
提出MotionVLA,一种用于人形运动生成的视觉-语言-动作模型,采用双流频率分词器分别编码姿态和物理动态,实现了更高的多样性和一致性。