vision-language-action

#vision-language-action

PolicyTrim: 提升视觉-语言-动作模型的本征策略效率

Hugging Face Daily Papers ↗ · 3天前缓存

PolicyTrim是一种基于强化学习的后训练框架，能将视觉-语言-动作模型的动作块利用率提升3倍，并将物理执行步骤减少51.4%，实现高达5.83倍的部署加速。

0 人收藏 0 人点赞

#vision-language-action

EventVLA: 事件驱动的视觉证据记忆用于长时域视觉-语言-动作策略

Hugging Face Daily Papers ↗ · 6天前缓存

EventVLA 提出了一种稀疏视觉证据记忆框架用于长时域机器人操作，相较于最先进的记忆增强型VLA，平均成功率提升了40%。

0 人收藏 0 人点赞

#vision-language-action

来自Agibot的130台人形机器人在Hyperscale Michigan校区开始训练，超越Vision Language Action模型

Reddit r/singularity ↗ · 6天前

Agibot已在Hyperscale Michigan校区部署了130台人形机器人进行训练，在其开发中超越了Vision Language Action模型。

0 人收藏 0 人点赞

#vision-language-action

超越英语：揭示视觉-语言-动作模型中的多语言差距

arXiv cs.CL ↗ · 2026-06-16 缓存

本文首次系统研究了视觉-语言-动作（VLA）模型中的多语言指令跟随问题，揭示了当模型基于英语训练时，在其他语言上的性能显著下降。作者提出了多语言主成分对齐（MPCA）方法来缩小多语言性能差距。

0 人收藏 0 人点赞

#vision-language-action

GeneralVLA-2：几何感知重建与受控记忆用于机器人规划

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

GeneralVLA-2 引入了 GeoFuse-MV3D 以改进 3D 重建，以及一个受控的 KnowledgeBank 以在机器人操作任务中实现更好的记忆管理，在多个基准测试上取得了性能提升。

0 人收藏 0 人点赞

#vision-language-action

ACE-Ego-0: 统一第一人称人类与机器人数据用于VLA预训练

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

ACE-EGO-0是一个统一的视觉-语言-动作预训练框架，利用第一人称人类视频和机器人轨迹，通过可靠性感知训练目标，在具身AI基准上达到了最先进水平。

0 人收藏 0 人点赞

#vision-language-action

分层优势加权：面向稀疏回合结果的VLA在线强化学习微调

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

本文提出分层优势加权行为克隆（HABC），用于利用具有稀疏二进制回合结果的在线强化学习微调视觉-语言-动作（VLA）策略。HABC通过自适应评价器头和干预感知的信用分配将可行性和效率目标分离，显著提高了接触密集型双手操作任务的成功率。

0 人收藏 0 人点赞

#vision-language-action

LaWAM：面向高效动力学感知机器人策略的潜在世界动作模型

Hugging Face Daily Papers ↗ · 2026-06-14 缓存

LaWAM通过预测紧凑的潜在视觉子目标而非昂贵的视频生成，实现了高效的机器人控制，相比像素空间世界动作模型，成功率可达最先进水平，同时延迟降低高达24倍。

0 人收藏 0 人点赞

#vision-language-action

检索，而非重新训练：在测试时将视觉语言动作模型扩展到新任务

Hugging Face Daily Papers ↗ · 2026-06-14 缓存

本文介绍了一种检索增强的视觉-语言-动作策略，通过使用预训练模型和索引演示，消除了每个任务的微调，实现了高效的跨本体泛化和测试时的任务适应。

0 人收藏 0 人点赞

#vision-language-action

MotionVLA：用于人形机器人运动的视觉-语言-动作模型

Hugging Face Daily Papers ↗ · 2026-06-13 缓存

提出MotionVLA，一种用于人形运动生成的视觉-语言-动作模型，采用双流频率分词器分别编码姿态和物理动态，实现了更高的多样性和一致性。

0 人收藏 0 人点赞

#vision-language-action

Hy-Embodied-0.5-VLA: 从视觉-语言-动作模型到真实世界机器人学习栈

Hugging Face Daily Papers ↗ · 2026-06-12 缓存

HyVLA-0.5 是一个端到端机器人学习系统，整合了数据收集、模型设计、预训练、微调和强化学习，用于真实世界部署。

0 人收藏 0 人点赞

#vision-language-action

LabVLA：在科学实验室中落地视觉-语言-动作模型

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

LabVLA是一种面向科学实验室自动化的视觉-语言-动作模型，采用两阶段训练方法，结合动作令牌预训练与流匹配。通过在LabUtopia基准上利用模拟数据弥合家庭演示与实验室特定任务之间的差距，它实现了最先进的成功率。

0 人收藏 0 人点赞

#vision-language-action

APT：动作专家预训练提升视觉-语言-动作策略的指令泛化能力

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

研究人员提出APT，一种两阶段训练方法，先在视觉-动作对上预训练动作专家，再整合语言条件，显著提升视觉-语言-动作策略在分布外指令上的泛化能力。

0 人收藏 0 人点赞

#vision-language-action

World Pilot: 使用世界动作先验引导视觉-语言-动作模型

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

World Pilot 通过融入来自世界动作模型的动态场景演变和轨迹先验来增强视觉-语言-动作模型，在操作任务上实现了最先进的零样本性能。

0 人收藏 0 人点赞

#vision-language-action

TBD-VLA: 时序块扩散视觉语言动作模型

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

TBD-VLA 提出了一种离散的视觉-语言-动作框架，结合了块扩散与自回归生成，以实现高效的时序动作建模和更快的推理速度，在仿真和真实世界的操作任务中显著优于之前的 VLA 方法。

0 人收藏 0 人点赞

#vision-language-action

机器人需要的不仅仅是VLA和世界模型

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

本文立场论文认为，推进机器人智能需要将非结构化的行为数据通过专门的接口进行整合，用于标注、具身映射、世界建模和奖励推断，而不是仅仅依赖扩展视觉-语言-动作（VLA）模型和世界模型。

0 人收藏 0 人点赞

#vision-language-action

AffordanceVLA: 一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

AffordanceVLA引入了一个统一框架，利用结构化可供性预测作为中间表示，结合视觉-语言模型和混合Transformer架构，以改进机器人操作中的感知-动作映射。

0 人收藏 0 人点赞

#vision-language-action

AURA: 恒定显存下的机器人策略动作门控记忆

arXiv cs.AI ↗ · 2026-06-03 缓存

AURA-Mem 提出了一种恒定大小的机器人策略记忆，通过一个学习后的门控机制，仅在当前观测会改变下一步动作时才进行写入。它能够以显著更少的写入次数和恒定的显存消耗匹配基准精度，解决了长周期机器人任务中的内存瓶颈问题。

0 人收藏 0 人点赞

#vision-language-action

视觉-语言-动作模型中的闭环神经激活控制

arXiv cs.AI ↗ · 2026-06-02 缓存

提出CTRL-STEER，一种闭环框架，通过时变控制信号对视觉-语言-动作模型进行自适应引导，在无需重新训练的情况下，实现了概念调节与任务成功率之间的更好权衡。

0 人收藏 0 人点赞

#vision-language-action

NVIDIA 刚刚发布了用于自动驾驶出租车的 32B 开源推理模型

Reddit r/artificial ↗ · 2026-06-01

NVIDIA 宣布推出 Alpamayo 2 Super，这是一款面向 L4 级自动驾驶出租车的 32B 开源推理模型，具备 360 度感知、元动作等功能，并提供包括 AlpaGym 仿真和 OmniDreams 场景生成在内的全套技术栈。

0 人收藏 0 人点赞

vision-language-action

提交意见反馈