@DanKornas：大多数 AI 智能体仍然将视觉、语言和行动分离到不同的系统中。Magma 是微软研究院的一个基础…

X AI KOLs Timeline 2026/05/23 12:16 工具

multimodal-ai open-source microsoft-research agentic-models foundation-model inference training

摘要

Magma 是微软研究院推出的一个开源仓库，用于构建整合视觉、语言和行动的多模态 AI 智能体，提供模型链接、推理示例、训练说明和演示。

大多数 AI 智能体仍然将视觉、语言和行动分离到不同的系统中。 Magma 是微软研究院的一个基础模型仓库，专为需要感知图像/视频并产生目标驱动行动的多模态 AI 智能体而设计。它将论文、模型链接、推理示例、训练说明、评估路径和演示整合在一处，帮助你研究和构建智能体模型。主要特性： • 多模态智能体聚焦 – 围绕图像/视频理解以及目标驱动的视觉计划和行动设计 • 模型访问 – README 中提供了 Hugging Face 和 Azure AI Foundry 上 Magma-8B 的链接 • 多种推理路径 – 包含 Hugging Face Transformers、本地仓库代码和 bitsandbytes 示例 • 训练文档 – 包含 Open-X 预训练笔记和 Magma-820K 微调说明 • 智能体工具 – 包含 lmms-eval、SimplerEnv、FastAPI 服务器、UI 智能体、游戏智能体和机器人视觉规划演示文档本仓库采用 MIT 开源许可证。回复见链接

查看原文

查看缓存全文

缓存时间: 2026/05/24 04:22

大多数AI智能体依然将视觉、语言和行动分散在不同的系统中。

Magma 是微软研究院推出的基础模型库，专为需要感知图像/视频并生成目标驱动动作的多模态AI智能体设计。

它将论文、模型链接、推理示例、训练指南、评估路径和演示整合在一处，帮助你研究和构建智能体模型。

主要特性：

• 多模态智能体聚焦 – 围绕图像/视频理解与目标导向的视觉规划及动作进行设计 • 模型获取 – README 中包含了 Hugging Face 和 Azure AI Foundry 上 Magma-8B 的链接 • 多种推理路径 – 提供了 Hugging Face Transformers、本地仓库代码以及 bitsandbytes 的使用示例 • 训练文档 – 包含 Open-X 预训练说明和 Magma-820K 微调指南 • 智能体工具 – 涵盖 lmms-eval、SimplerEnv、FastAPI 服务器、UI 智能体、游戏智能体以及机器人视觉规划演示文档

采用开源许可（MIT 协议）。

链接见回复。

@DanKornas：大多数 AI 智能体仍然将视觉、语言和行动分离到不同的系统中。Magma 是微软研究院的一个基础…

相似文章

@MSFTResearch：微软研究院推出了新的工具、模型、仓库和论文。使用AI和智能体？值得关注：• Mage…

@DanKornas：当工具、记忆、工作流和模型集成都分散在独立的粘合代码中时，Agent 项目会变得难以维护...

@DanKornas: 大多数智能体系统能在单次会话中完成令人印象深刻的工作。难点在于让它们长期记住、反思并持续改进……

@DanKornas: 当代理记忆仅仅是对旧笔记的搜索时，它会迅速变得混乱。A-MEM是一种用于LLM智能体的智能体记忆系统，能够…

Mage (GitHub 仓库)

提交意见反馈