vision-language-action

标签

Cards List
#vision-language-action

RLDX-1 技术报告

Hugging Face Daily Papers · 5天前 缓存

RLDX-1 是一种用于灵巧操作的多功能机器人策略,采用多流动作 Transformer(Multi-Stream Action Transformer)架构来整合异构模态,在现实世界任务中超越了现有的 VLA 模型。

0 人收藏 0 人点赞
#vision-language-action

刚刚开源 FastVLA

Reddit r/LocalLLaMA · 2026-04-22

FastVLA,一款开源视觉-语言-动作模型,现可在 L4 GPU 上实现 5 Hz 机器人控制。

0 人收藏 0 人点赞
#vision-language-action

Cortex 2.0:在现实工业部署中落地世界模型

Hugging Face Daily Papers · 2026-04-22 缓存

Cortex 2.0 提出“先规划再行动”的控制框架,利用视觉隐空间轨迹生成,在复杂工业环境中实现可靠的长时域机器人操作,性能超越反应式 Vision-Language-Action 模型。

0 人收藏 0 人点赞
#vision-language-action

OneVL:基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers · 2026-04-20 缓存

# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v

0 人收藏 0 人点赞
#vision-language-action

@zhijianliu_: 推理 VLA 会思考,只是不够快——直到现在。推出 FlashDrive:RTX PRO 6000 上 716 ms → 159 ms……

X AI KOLs Timeline · 2026-04-19 缓存

FlashDrive 将推理视觉-语言-动作模型在 RTX PRO 6000 上的延迟从 716 ms 降至 159 ms,最高加速 5.7 倍,零精度损失,让实时自主应用成为可能。

0 人收藏 0 人点赞
#vision-language-action

HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers · 2026-04-15 缓存

HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。

0 人收藏 0 人点赞
#vision-language-action

Gemini Robotics 1.5 将 AI 智能体带入物理世界

Google DeepMind Blog · 2025-10-23 缓存

Google DeepMind 推出 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5,推进了物理 AI 智能体的发展,这些智能体能够感知、规划、思考和行动来完成复杂的多步骤任务。Gemini Robotics-ER 1.5 现已通过 Gemini API 向开发者提供。

0 人收藏 0 人点赞
#vision-language-action

Gemini Robotics On-Device 将人工智能带到本地机器人设备

Google DeepMind Blog · 2025-06-24 缓存

Google DeepMind 推出 Gemini Robotics On-Device,这是一个高效的 VLA 模型,可以在机器人设备上本地运行,实现低延迟操作和离线功能,同时保持强大的灵巧操控能力和任务泛化能力。该模型可以通过仅 50-100 个演示进行微调,并附带供开发者使用的 SDK。

0 人收藏 0 人点赞
#vision-language-action

Gemini Robotics 将 AI 引入物理世界

Google DeepMind Blog · 2025-03-12 缓存

Google DeepMind 推出 Gemini Robotics,这是一个基于 Gemini 2.0 的视觉-语言-动作模型,可以控制物理机器人,具有更强的通用性、交互性和灵巧性。该公司还推出了用于空间推理的 Gemini Robotics-ER,并与 Apptronik 合作开发人形机器人。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈