标签
本文介绍了语义动作强化学习(Semantic Action RL),它通过对视觉-语言-动作(VLA)提示进行强化学习,使机器人能够在现实世界中快速学习新任务。
介绍了Neuro-Symbolic Drive,一个使用来自经典规划器的基于规则推理轨迹来微调驾驶VLA(Qwen3.5-4B)的框架,与标准CoT推理相比,显著降低了平均位移误差和漏检率。
本文介绍了PersonaDrive,一种将视觉-语言-动作(VLA)驾驶智能体基于从风格引导的人类驾驶数据集中检索到的演示进行条件化的流程,从而能够为闭环仿真提供风格多样的非自车智能体,并在Bench2Drive上提升了驾驶评分。
机器人世界模型和仿真平台迎来开源加速:NVIDIA 推出 Cosmos 3 与 Isaac GR00T 物理 AI 基础模型,AGIBOT 发布 Genie Sim 3.0 全开源仿真平台,VLA 模型成为操作策略主流,整体降低了机器人领域的入门门槛。
AffordanceVLA引入了一个统一框架,利用结构化可供性预测作为中间表示,结合视觉-语言模型和混合Transformer架构,以改进机器人操作中的感知-动作映射。
X Square Robot 发布了 Wall-OSS-0.5,这是一个 4B 参数的开源 VLA 机器人基础模型,在包含 17 个任务的真实机器人零样本测试集上进行了评估,无需任务特定的微调,旨在直接测量预训练能力。
发布Wall-OSS-0.5,一个开源权重的视觉-语言-动作模型,在17个真实机器人任务中的4个上实现了超过80%的任务进度,且无需微调,包括一个预训练中未见过的可变形绳索任务。该模型在提升具身接地能力的同时,保留了通用的视觉-语言能力。
FrameSkip是一种数据层的帧选择方法,通过基于动作变化和视觉一致性指标优先选择高重要性的帧,来改进视觉-语言-动作(VLA)策略训练。该方法在三个基准测试中实现了76.15%的宏观平均成功率,同时仅使用了20%的独特帧。
英伟达 Jim Fan 在 Sequoia AI Ascent 2026 上发表演讲,宣告 VLA 架构过时并提出世界动作模型(WAM)作为机器人新范式,介绍了 DreamZero、EgoScale 及神经仿真器 Dream Dojo 等关键技术。
Allen AI 发布了 MolmoAct2,这是一款专为真实场景机器人部署设计的开放权重视觉-语言-动作模型,具备新数据集、开放动作分词器以及自适应推理以降低延迟等特性。
NVIDIA 与 Hugging Face 发布实操演示,展示 Gemma 4 作为视觉-语言-动作模型在 Jetson Orin Nano Super 上完整运行,使用本地语音转文字/文字转语音及网络摄像头输入。
FlashDrive 将推理视觉-语言-动作模型在 RTX PRO 6000 上的延迟从 716 ms 降至 159 ms,最高加速 5.7 倍,零精度损失,让实时自主应用成为可能。
LeRobot v0.5.0 是一个重大版本,支持 Unitree G1 人形机器人、新的策略架构(Pi0-FAST VLAs、实时分块)、用于提升 3 倍训练速度的流式视频编码,以及用于从 Hugging Face Hub 加载仿真环境的 EnvHub。