AllenAI 持续推进其 MolmoAct2 机器人模型

Reddit r/LocalLLaMA 模型

摘要

AllenAI 发布了用于机器人控制的开源 MolmoAct2 模型,包含多个针对不同任务微调的版本,并提供了完整数据集和训练代码。

r/AllenAI 正在研发 MolmoAct2,这是一个用于机器人控制的 5B 视觉-语言-动作模型。他们不断发布针对不同类型机器人数据集的新微调版本,包括(但不限于,且他们还在持续发布新版本): * https://huggingface.co/allenai/MolmoAct2-LIBERO - 通用机器人任务 * https://huggingface.co/allenai/MolmoAct2-DROID - 交互式机器人任务 * https://huggingface.co/allenai/MolmoAct2-BimanualYAM - 绝对关节位姿控制 * https://huggingface.co/allenai/MolmoAct2-SO100_101 - 同样是绝对关节位姿控制 AllenAI 将这些模型以 ***完全开源*** 的形式发布,不仅公开了权重,还公开了其 **完整** 的训练数据集(包括预训练数据)、训练软件源代码,以及描述这些模型理论、训练和评估的技术论文。如果有人正在摆弄通过 LLM 推理控制的机器人,你应该看看 MolmoAct2 模型。
查看原文

相似文章

MolmoAct2:面向真实场景部署的动作推理模型

Papers with Code Trending

Allen AI 发布了 MolmoAct2,这是一款专为真实场景机器人部署设计的开放权重视觉-语言-动作模型,具备新数据集、开放动作分词器以及自适应推理以降低延迟等特性。

MolmoAct 2

Product Hunt

MolmoAct 2 是由 Allen Institute for Artificial Intelligence 开发的开源机器人模型,能够在执行动作前进行三维空间推理。

tencent/HY-Embodied-0.5

Hugging Face Models Trending

腾讯发布了HY-Embodied-0.5,这是一套为具身AI智能体设计的基础模型套件,采用混合变换器(MoT)架构,提供高效的2B和强大的32B变体,用于真实世界的机器人控制和时空推理。