vla

#vla

@svlevine：要想让机器人做好一件事，你需要知道如何与它对话。如果你不会，你可以学习，通过Semanti…

X AI KOLs Following ↗ · 19小时前缓存

本文介绍了语义动作强化学习（Semantic Action RL），它通过对视觉-语言-动作（VLA）提示进行强化学习，使机器人能够在现实世界中快速学习新任务。

0 人收藏 0 人点赞

#vla

Neuro-Symbolic Drive: Rule-Grounded Faithful Reasoning for Driving VLAs

arXiv cs.AI ↗ · 2026-06-24 缓存

介绍了Neuro-Symbolic Drive，一个使用来自经典规划器的基于规则推理轨迹来微调驾驶VLA（Qwen3.5-4B）的框架，与标准CoT推理相比，显著降低了平均位移误差和漏检率。

0 人收藏 0 人点赞

#vla

PersonaDrive：面向闭环驾驶仿真的基于人类风格的检索增强VLA智能体

arXiv cs.AI ↗ · 2026-06-12 缓存

本文介绍了PersonaDrive，一种将视觉-语言-动作（VLA）驾驶智能体基于从风格引导的人类驾驶数据集中检索到的演示进行条件化的流程，从而能够为闭环仿真提供风格多样的非自车智能体，并在Bench2Drive上提升了驾驶评分。

0 人收藏 0 人点赞

#vla

@seclink: 5. 机器人世界模型开源加速 - NVIDIA Cosmos 3 + Isaac GR00T：物理 AI 基础模型 - AGIBOT Genie Sim 3.0：首个完全开源的机器人仿真平台（代码+数据+资产全开源） - VLA（Visi…

X AI KOLs Following ↗ · 2026-06-08 缓存

机器人世界模型和仿真平台迎来开源加速：NVIDIA 推出 Cosmos 3 与 Isaac GR00T 物理 AI 基础模型，AGIBOT 发布 Genie Sim 3.0 全开源仿真平台，VLA 模型成为操作策略主流，整体降低了机器人领域的入门门槛。

0 人收藏 0 人点赞

#vla

AffordanceVLA: 一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

AffordanceVLA引入了一个统一框架，利用结构化可供性预测作为中间表示，结合视觉-语言模型和混合Transformer架构，以改进机器人操作中的感知-动作映射。

0 人收藏 0 人点赞

#vla

机器人基础模型总是用微调后的数字来展示性能。Wall-OSS-0.5 正在尝试一种不同的方法

Reddit r/artificial ↗ · 2026-05-31

X Square Robot 发布了 Wall-OSS-0.5，这是一个 4B 参数的开源 VLA 机器人基础模型，在包含 17 个任务的真实机器人零样本测试集上进行了评估，无需任务特定的微调，旨在直接测量预训练能力。

0 人收藏 0 人点赞

#vla

开源权重VLA在17个真实机器人任务中的4个上实现了80%以上的任务进度，零微调。附带演示视频。

Reddit r/singularity ↗ · 2026-05-31

发布Wall-OSS-0.5，一个开源权重的视觉-语言-动作模型，在17个真实机器人任务中的4个上实现了超过80%的任务进度，且无需微调，包括一个预训练中未见过的可变形绳索任务。该模型在提升具身接地能力的同时，保留了通用的视觉-语言能力。

0 人收藏 0 人点赞

#vla

FrameSkip: 在VLA训练中从更少但信息更丰富的帧中学习

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

FrameSkip是一种数据层的帧选择方法，通过基于动作变化和视觉一致性指标优先选择高重要性的帧，来改进视觉-语言-动作(VLA)策略训练。该方法在三个基准测试中实现了76.15%的宏观平均成功率，同时仅使用了20%的独特帧。

0 人收藏 0 人点赞

#vla

@dotey: https://x.com/dotey/status/2053351712149135385

X AI KOLs Timeline ↗ · 2026-05-10 缓存

英伟达 Jim Fan 在 Sequoia AI Ascent 2026 上发表演讲，宣告 VLA 架构过时并提出世界动作模型（WAM）作为机器人新范式，介绍了 DreamZero、EgoScale 及神经仿真器 Dream Dojo 等关键技术。

0 人收藏 0 人点赞

#vla

MolmoAct2：面向真实场景部署的动作推理模型

Papers with Code Trending ↗ · 2026-05-04 缓存

Allen AI 发布了 MolmoAct2，这是一款专为真实场景机器人部署设计的开放权重视觉-语言-动作模型，具备新数据集、开放动作分词器以及自适应推理以降低延迟等特性。

0 人收藏 0 人点赞

#vla

Gemma 4 VLA 在 Jetson Orin Nano Super 上的演示

Hugging Face Blog ↗ · 2026-04-22 缓存

NVIDIA 与 Hugging Face 发布实操演示，展示 Gemma 4 作为视觉-语言-动作模型在 Jetson Orin Nano Super 上完整运行，使用本地语音转文字/文字转语音及网络摄像头输入。

0 人收藏 0 人点赞

#vla

@zhijianliu_: 推理 VLA 会思考，只是不够快——直到现在。推出 FlashDrive：RTX PRO 6000 上 716 ms → 159 ms……

X AI KOLs Timeline ↗ · 2026-04-19 缓存

FlashDrive 将推理视觉-语言-动作模型在 RTX PRO 6000 上的延迟从 716 ms 降至 159 ms，最高加速 5.7 倍，零精度损失，让实时自主应用成为可能。

0 人收藏 0 人点赞

#vla

LeRobot v0.5.0：全面扩展

Hugging Face Blog ↗ · 2026-03-09 缓存

LeRobot v0.5.0 是一个重大版本，支持 Unitree G1 人形机器人、新的策略架构（Pi0-FAST VLAs、实时分块）、用于提升 3 倍训练速度的流式视频编码，以及用于从 Hugging Face Hub 加载仿真环境的 EnvHub。

0 人收藏 0 人点赞

vla

提交意见反馈