vision-language-action

#vision-language-action

RLDX-1 技术报告

Hugging Face Daily Papers ↗ · 5天前缓存

RLDX-1 是一种用于灵巧操作的多功能机器人策略，采用多流动作 Transformer（Multi-Stream Action Transformer）架构来整合异构模态，在现实世界任务中超越了现有的 VLA 模型。

0 人收藏 0 人点赞

#vision-language-action

刚刚开源 FastVLA

Reddit r/LocalLLaMA ↗ · 2026-04-22

FastVLA，一款开源视觉-语言-动作模型，现可在 L4 GPU 上实现 5 Hz 机器人控制。

0 人收藏 0 人点赞

#vision-language-action

Cortex 2.0：在现实工业部署中落地世界模型

Hugging Face Daily Papers ↗ · 2026-04-22 缓存

Cortex 2.0 提出“先规划再行动”的控制框架，利用视觉隐空间轨迹生成，在复杂工业环境中实现可靠的长时域机器人操作，性能超越反应式 Vision-Language-Action 模型。

0 人收藏 0 人点赞

#vision-language-action

OneVL：基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers ↗ · 2026-04-20 缓存

# 论文页面 - OneVL：基于视觉语言解释的单步隐式推理与规划来源：[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者：, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架，通过整合语言和 v

0 人收藏 0 人点赞

#vision-language-action

@zhijianliu_: 推理 VLA 会思考，只是不够快——直到现在。推出 FlashDrive：RTX PRO 6000 上 716 ms → 159 ms……

X AI KOLs Timeline ↗ · 2026-04-19 缓存

FlashDrive 将推理视觉-语言-动作模型在 RTX PRO 6000 上的延迟从 716 ms 降至 159 ms，最高加速 5.7 倍，零精度损失，让实时自主应用成为可能。

0 人收藏 0 人点赞

#vision-language-action

HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers ↗ · 2026-04-15 缓存

HiVLA 提出了一种分层视觉-语言-动作框架，通过使用扩散变换器动作专家将语义规划与运动控制解耦，从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家，在长周期任务和细粒度操作方面尤其优于端到端基线。

0 人收藏 0 人点赞

#vision-language-action

Gemini Robotics 1.5 将 AI 智能体带入物理世界

Google DeepMind Blog ↗ · 2025-10-23 缓存

Google DeepMind 推出 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5，推进了物理 AI 智能体的发展，这些智能体能够感知、规划、思考和行动来完成复杂的多步骤任务。Gemini Robotics-ER 1.5 现已通过 Gemini API 向开发者提供。

0 人收藏 0 人点赞

#vision-language-action

Gemini Robotics On-Device 将人工智能带到本地机器人设备

Google DeepMind Blog ↗ · 2025-06-24 缓存

Google DeepMind 推出 Gemini Robotics On-Device，这是一个高效的 VLA 模型，可以在机器人设备上本地运行，实现低延迟操作和离线功能，同时保持强大的灵巧操控能力和任务泛化能力。该模型可以通过仅 50-100 个演示进行微调，并附带供开发者使用的 SDK。

0 人收藏 0 人点赞

#vision-language-action

Gemini Robotics 将 AI 引入物理世界

Google DeepMind Blog ↗ · 2025-03-12 缓存

Google DeepMind 推出 Gemini Robotics，这是一个基于 Gemini 2.0 的视觉-语言-动作模型，可以控制物理机器人，具有更强的通用性、交互性和灵巧性。该公司还推出了用于空间推理的 Gemini Robotics-ER，并与 Apptronik 合作开发人形机器人。

0 人收藏 0 人点赞

vision-language-action

提交意见反馈