@DanKornas:大多数 AI 智能体仍然将视觉、语言和行动分离到不同的系统中。Magma 是微软研究院的一个基础…
摘要
Magma 是微软研究院推出的一个开源仓库,用于构建整合视觉、语言和行动的多模态 AI 智能体,提供模型链接、推理示例、训练说明和演示。
查看缓存全文
缓存时间: 2026/05/24 04:22
大多数AI智能体依然将视觉、语言和行动分散在不同的系统中。
Magma 是微软研究院推出的基础模型库,专为需要感知图像/视频并生成目标驱动动作的多模态AI智能体设计。
它将论文、模型链接、推理示例、训练指南、评估路径和演示整合在一处,帮助你研究和构建智能体模型。
主要特性:
• 多模态智能体聚焦 – 围绕图像/视频理解与目标导向的视觉规划及动作进行设计 • 模型获取 – README 中包含了 Hugging Face 和 Azure AI Foundry 上 Magma-8B 的链接 • 多种推理路径 – 提供了 Hugging Face Transformers、本地仓库代码以及 bitsandbytes 的使用示例 • 训练文档 – 包含 Open-X 预训练说明和 Magma-820K 微调指南 • 智能体工具 – 涵盖 lmms-eval、SimplerEnv、FastAPI 服务器、UI 智能体、游戏智能体以及机器人视觉规划演示文档
采用开源许可(MIT 协议)。
链接见回复。
相似文章
@MSFTResearch:微软研究院推出了新的工具、模型、仓库和论文。使用AI和智能体?值得关注:• Mage…
微软研究在微软研究论坛虚拟系列中宣布了新的工具、模型、仓库和论文,包括MagenticLite、智能体驱动的GitHub工作流、验证优先的智能体以及语义匹配微调。
AI Agent 入门
关于构建可靠AI Agent的全面指南,解释感知、决策逻辑和行动接口的核心组件,并包含前Meta工程师的见解。
MolmoAct2:面向真实场景部署的动作推理模型
Allen AI 发布了 MolmoAct2,这是一款专为真实场景机器人部署设计的开放权重视觉-语言-动作模型,具备新数据集、开放动作分词器以及自适应推理以降低延迟等特性。
microsoft/ai-agents-for-beginners
微软在GitHub上发布了一门面向初学者的开源课程,涵盖构建AI智能体所需的全部内容,并提供50多种语言翻译。
我打造了 MagesticAI:一个真正帮助我开发自身的云端网页版代理式DevOps编排器。
MagesticAI 是一个开源的、基于浏览器的多智能体 AI 编码平台,它使用 Planner、Coder 和 QA Reviewer 智能体在隔离的 git 工作树中进行协调会话,并支持包括 OpenAI 兼容端点在内的多种大语言模型。