@DanKornas:大多数 AI 智能体仍然将视觉、语言和行动分离到不同的系统中。Magma 是微软研究院的一个基础…

X AI KOLs Timeline 工具

摘要

Magma 是微软研究院推出的一个开源仓库,用于构建整合视觉、语言和行动的多模态 AI 智能体,提供模型链接、推理示例、训练说明和演示。

大多数 AI 智能体仍然将视觉、语言和行动分离到不同的系统中。 Magma 是微软研究院的一个基础模型仓库,专为需要感知图像/视频并产生目标驱动行动的多模态 AI 智能体而设计。 它将论文、模型链接、推理示例、训练说明、评估路径和演示整合在一处,帮助你研究和构建智能体模型。 主要特性: • 多模态智能体聚焦 – 围绕图像/视频理解以及目标驱动的视觉计划和行动设计 • 模型访问 – README 中提供了 Hugging Face 和 Azure AI Foundry 上 Magma-8B 的链接 • 多种推理路径 – 包含 Hugging Face Transformers、本地仓库代码和 bitsandbytes 示例 • 训练文档 – 包含 Open-X 预训练笔记和 Magma-820K 微调说明 • 智能体工具 – 包含 lmms-eval、SimplerEnv、FastAPI 服务器、UI 智能体、游戏智能体和机器人视觉规划演示文档 本仓库采用 MIT 开源许可证。 回复见链接
查看原文
查看缓存全文

缓存时间: 2026/05/24 04:22

大多数AI智能体依然将视觉、语言和行动分散在不同的系统中。

Magma 是微软研究院推出的基础模型库,专为需要感知图像/视频并生成目标驱动动作的多模态AI智能体设计。

它将论文、模型链接、推理示例、训练指南、评估路径和演示整合在一处,帮助你研究和构建智能体模型。

主要特性:

• 多模态智能体聚焦 – 围绕图像/视频理解与目标导向的视觉规划及动作进行设计 • 模型获取 – README 中包含了 Hugging Face 和 Azure AI Foundry 上 Magma-8B 的链接 • 多种推理路径 – 提供了 Hugging Face Transformers、本地仓库代码以及 bitsandbytes 的使用示例 • 训练文档 – 包含 Open-X 预训练说明和 Magma-820K 微调指南 • 智能体工具 – 涵盖 lmms-eval、SimplerEnv、FastAPI 服务器、UI 智能体、游戏智能体以及机器人视觉规划演示文档

采用开源许可(MIT 协议)。

链接见回复。

相似文章

AI Agent 入门

X AI KOLs

关于构建可靠AI Agent的全面指南,解释感知、决策逻辑和行动接口的核心组件,并包含前Meta工程师的见解。

MolmoAct2:面向真实场景部署的动作推理模型

Papers with Code Trending

Allen AI 发布了 MolmoAct2,这是一款专为真实场景机器人部署设计的开放权重视觉-语言-动作模型,具备新数据集、开放动作分词器以及自适应推理以降低延迟等特性。

microsoft/ai-agents-for-beginners

GitHub Trending (daily)

微软在GitHub上发布了一门面向初学者的开源课程,涵盖构建AI智能体所需的全部内容,并提供50多种语言翻译。