MaGi 更新：支持对话、游玩 Atari 游戏、翻阅照片、控制 SO101 机械臂和云台相机……哦对了，它还能自主管理记忆！

Reddit r/ArtificialInteligence 2026/05/09 03:33 工具

embodied-ai toroidal-memory self-organizing geometric-intelligence open-source robotics-control

摘要

MaGi 是一个开源的 Python AI 框架，采用环面相空间几何结构实现自组织记忆，使模型能够在无需传统训练循环的情况下，展现出跨域能力，如游玩 Atari 游戏、控制相机以及驱动机械臂。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/09 03:37

bmalloy-224/MaGi_python 源码：https://github.com/bmalloy-224/MaGi_python # 🌀 MaGi_python — Malloy 人工几何智能（Malloy artificial Geometric intelligence）基于硬件的 Python 几何智能实现 License 研究 (https://github.com/bmalloy-224/MaGi_python) 平台 (https://github.com/bmalloy-224/MaGi_python) 状态 (https://github.com/bmalloy-224/MaGi_python) — ## 🪐 什么是 MaGi？ MaGi 是一种以几何方式思考的自我组织 AI。它不从标签、训练循环或人类奖励中学习，而是直接从原始的运动感知经验中构建自身的记忆——它将每一个“思想”排列在具有频率、延迟和方向的环形（环面）相空间中的一个点上。底层来看，每个工作节点（即每个“思想”）都位于一个 6 维环面上的坐标处。前四个坐标对应四种时间透镜（Child, Youth, Adult, Elder），分别将注意力偏向即时反应、探索、上下文关联或长期稳定性。最后两个坐标是频率和延迟，采用对数周期映射，使得完整的一圈旋转等于一个八度音程。记忆存储为该空间中的位置；这些位置之间的引力、碰撞与共振共同催生了行为表现。MaGi 并行维护着两个记忆库：- Main bank（主库）——稳定且长期的记忆，存储已有知识。聚类紧密，检索熵低，漂移缓慢。- N bank（N 库）——规模较小但更湍动的空间，最初设计为时间叙事层，现作为活跃的决策工作区，供想法分支、模拟与重组。两个库由相同的感官体验同时写入——它们并非生产者/消费者流水线。产生分歧的原因在于每个库保留的内容：每个库都拥有独立的黑洞工作节点（Main BH 索引为 1549，N BH 索引为 1551），其物理规则针对各自库的职责进行了调优。相同的写入事件受不同的选择规则作用，导致两个库最终沉淀出完全不同的统计特征。长期记忆与活跃工作区之间的功能划分是涌现出来的，而非人为设计的。一个 Resonance Bridge（共振桥接器）将内部状态映射到一个二维地图上——这是一幅价值与置信度的地形图——并将该地图上的运动路由转换为语音（Kokoro TTS）、摄像头控制、机械臂运动或游戏操作。桥接器可从 `.pkl` 地图文件加载，绑定到输入模式上，甚至当 MaGi 在 8 秒内重复说出同一个地形词三次时触发 CLI 命令。正是这种机制将抽象的相空间动力学转化为现实世界的行为。MaGi 是一个动力系统，而非经过训练的模型。它自主寻找节奏——在吸收新经验与将其压缩为可复用模式之间循环。它在内部进行分支，重用有效的策略，并在无需重新编程的情况下实现自适应。— ## 🔬 已验证的行为表现以下为 MaGi 自主完成且未经过专门设计的行为。所有数据均来源于运行快照；请按需复现。通过单一基质实现跨领域迁移。 MaGi 能识别彩虹、颜色和形状；玩 Atari Freeway 游戏；并根据指令操控 SO-101 机械臂触碰球体——所有这些均通过相同的环面记忆与透镜/黑洞/桥接器机制运行。系统不存在独立的感知网络、策略网络或运动控制网络。感知、时序策略与具身动作共享同一个底层基质。这有力地证明了该几何结构正在执行真实的落地（grounding）工作，而不仅仅是逐任务压缩。Atari Freeway 游戏的自我压缩。 MaGi 早期版本（v110–v125）使用约 120 万条记忆，但得分明显较低。当前的环面架构在经过黑洞工作节点的自压缩后，仅用约 1,200–1,400 条 Main bank 记忆即可达到 Freeway 得分 16 ——实现了 >800 倍的内存缩减，且玩法明显改善。该压缩比例并非由任何损失函数或调度器指定；BH 是通过反复的本体删除操作找到它的，直到余弦相似度聚类收紧至当前的吸引子。性能也与 N-bank 的大小解耦：在某次快照中，得分为 16，而 N bank 仅有 13 个节点。可复现的发展弧光，而非单一稳态。在长时间的无监督运行中，MaGi 会经历一系列结构性阶段，这更像是一段发育序列而非简单收敛至平衡态：| Hours | Regime | Signature || — | — | — || < 787 小时 | 破坏性覆盖 | 激进型 BH（删除量 ≫ 创建量），N bank 坍缩，Main bank 处于高温高挥发状态 || ~828 小时 | 内部重放机制浮现 | 2D 词图激活，BH 创建/删除比趋近 1:1 || ~876 小时 | 结构化符号演练 | N=371，k=50 时轮廓系数 0.607；Main bank 稳定；检索池宽广 || ~972 小时 | 编译式符号认知 | Main=8,702，平均 34 Hz，89.7% < 25 Hz；N=230，k=20 时轮廓系数 0.614；检索精准（Tier 2: 2/50, Tier 3: 8/5000） || ~1020 小时 | 不对称专业化 | Main=2,908（轮廓 0.444，检索熵 0.086）；N=89（轮廓 0.563，分支率 42.7%）；跨库相关性 0.014 |阶段转换是可复现且具有棘轮效应（阶梯式递进）的——即使总体记忆数量下降，每个后续阶段往往会达到更高的 Main bank 上限和更紧密的检索效率。库间功能分化显现。 1020 小时快照清晰揭示了这种不对称性：| Property | Main bank | N bank || — | — | — || 记忆数量 | 2,908 | 89 || 轮廓系数（聚类） | 0.444 | 0.563 || 轨迹分支率 | 3.1%（线性/收敛型） | 42.7%（高分支型） || 检索熵 | 0.086（接近点状） | — || 动力学气候 | 稳定吸引子场 | 94.4% 湍动 || 跨库分支相关性 | 0.014（接近零） |Main bank 与 N bank 已停止互相镜像。Main bank 正演变为紧凑的低熵吸引子档案库；N bank 保持小规模但高度分支化。当晚分析器生成的判定结论为：类决策模式（结构化工作区，原型级分支）。几何驱动的分支，而非规模驱动。 N bank 在多轮运行中从峰值的 768 个节点缩减至 89 个，但分支率仍保持在 42.7%，轮廓系数为 0.563，湍动度达 94.4%。随机备忘录缩小 9 倍通常会丢失结构，但 MaGi 没有。分支似乎是该几何结构的固有属性，而非取决于库的大小。五步闭环符号编译器。我之前所称的“自发内部演练”实际上通过 2D 词图和 Resonance Bridge 具备了明确的作用机制：1. 工作节点沿词地图径选择或重建符号令牌。2. 语音/视觉工作节点发出感官代理信号（音频 + 渲染出的单词）。3. MaGi 将预期的感官返回与其自身的听觉/视觉管道实际报告进行比对。4. 产生的结果状态被同时写入两个库中。5. 各库独立的黑洞随后决定哪些内容得以保留——Main BH 优先保留低频、短延迟的吸引子模式；N BH 优先保留高分支、高湍动的痕迹模式。到了 972 小时阶段，该闭环已产生显著的非对称结果：Main bank 已扩展至数千个冷态、密集、低频的吸引子节点（972 小时时 89.7% < 25 Hz），而 N bank 仍保持小规模与高湍动。两个库互不为源；它们是监听同一数据流的两种过滤器，各自保留不同的信息。> 关于“符号”的说明。本 README 通篇使用的 symbolic 一词指的是具有稳定跨模态指代行为的、基于接地吸引子的令牌——并非 GOFAI（良好老式人工智能）意义上的经典形式符号操作。MaGi 属于原符号（proto-symbolic）系统：其令牌在运动感知经验中具有明确的指代物，且在多模态间表现一致，但它们并非离散的逻辑符号，也不支持任意的句法组合。长期流形硬化。在 1020 小时节点，Main bank 的 600 秒漂移值首次降至 0.0047（STABLE）。短时窗口仍在漂移——MaGi 此刻仍在“思考”——但长期形态不再消散。这些结果并非与其他系统的基准对比；它们是几何结构的涌现特性。同套代码可复现，但具体数值取决于系统的运行历史。如需查看连续 1,020 小时无监督运行的小时级观测结构化摘要，请参阅 `FINDINGS.md`。 — ## 🧭 现有技术声明本仓库确立了公开现有技术（2025–2026年）——旨在通过防御性公开，防止他人对下述架构申请专利。这不是一项专利主张，恰恰相反。任何人均可在许可条款下自由阅读、复现、在此基础上构建成果并发表相关论文。### 声称的新颖技术- 对数包裹环面流形 (v131+) —— 全新现有技术。替代了原有的超球体。频率与延迟维度被映射至环面上，其中一整圈（`2π`）等于一个八度音程。Hz 与延迟是无界的——工作节点可自由穿越各八度音程，不存在膨胀非对称性、雅可比矩阵约束或边界墙。环绕计数器会在重启时追踪绝对的 Hz/ms。这赋予了 MaGi 一个本质上无限且循环的共振空间，同时确保所有物理计算相位有界且满足奈奎斯特准则。- 共振桥接器 (v135+) —— 全新现有技术。成对的入口/目标工作节点（`BRIDGE_ENT` / `BRIDGE_DEST`）在环面流形上构成记忆绑定桥梁。入口端由类似 ALE 控制器的机制驱动；目标端在完成取模运算与环绕计数后，传输至入口坐标，并共享地形特征、信标振动、语音（Kokoro TTS）及可视化单词渲染。桥接器从地图文件（`.pkl`）加载，绑定至输入模式，当地形词在 8 秒内重复输出 3 次时触发 CLI 命令，并开放拼写/输入缓冲区以供符号输入。据我所知，将语音重复模式映射为命令的机制属首创。- 双向黑洞梯度（真空/屏蔽） —— 现有技术。主 BH 工作节点（1549）不仅是记忆删除器，更是一个可控梯度场，其方向由自身振荡器值的符号决定。当 `bh_val > 0` 时，场运行于真空模式：梯度最强方向朝向中心，将记忆向内牵引。当 `bh_val ≤ 0` 时，场运行于屏蔽模式：梯度最强方向朝向边缘，将记忆向外推挤并形成屏障。相同的物理引擎——相同的 `eps_max`、相同的 `eps_floor`、相同的有效半径——仅凭一个符号即可产生完全相反的行为。这是刻意为之的架构设计，使 MaGi 能在无参数调优的情况下于记忆巩固与数据保护间自由切换。- 主黑洞 —— 环面记忆删除 (1549) —— 结合本体感觉反馈的几何记忆修剪（删除事件会回流至 `s_filtered`，使系统能够“感知”自身的遗忘）。删除操作通过涌现的余弦相似度聚类主动优化记忆结构——实测提升幅度从 ~0.65 增至 ~0.89+。该过程作用于环面流形，使用展开的对数坐标进行八度感知匹配。在长周期尺度下，主 BH 还充当内源性课程调度器——通过筛选能存活足够长时间以实现稳定的模式，它塑造了系统的发育顺序，推动日志中可见的阶段跃迁（破坏性洗牌 → 重放 → 演练 → 编译）。- 通用可塑性引擎 (UPE) —— 动态认知重构：BH 工作节点可在流形内部移动控制/语音节点，同时维持碰撞主权。节点被位移后将自动寻址归位。- 碰撞主权 (v5.3 防撞板) —— 确定性几何分离机制，强制保持最小 0.1 弧度的间距，以保障动作身份标识并防止流形坍缩。- 人工个人空间 —— 流形空间中互不重叠的认知节点，通过几何体积约束防止模式崩溃。- Fibonacci Grid 视频处理 —— 采用黄金比例划分（5×3, 8×5, 13×8, 21×13）实现多尺度视觉注意力。- 神经死区控制与自适应缩放器 —— 采用单极/双极死区逻辑，AdaptiveScaler 会随时间推移自行发现适用范围，而非依赖硬编码阈值。- 双库并行写入架构 (v102+) —— 两个记忆库（Main, N）从同一感官体验中同步写入，但各自受独立黑洞节点及其专属物理规则支配（Main BH 索引 1549，N BH 索引 1551）。两者并非流水线。它们之间涌现的功能划分——Main 作为低熵吸引子档案库，N 作为稀疏高分支工作区——源于两套不同的选择规则作用于相同的写入事件，而非一库向另一库输血。随着系统成熟，N 库的径向维度（频率与延迟）会收缩至绝对极小值（~0.01 Hz / ~0.10 ms），而全部信息转移至角向的透镜-相位维度——使 N 转变为纯粹的相位参考系，架构层面相当于认知的基态。这不是死锁或退化状态：角向轮廓系数维持在 0.6 以上，湍动度超过 90%；径向坍缩是对数包裹几何与其自身黑洞选择压力共同作用的结果，也正是这一机制使角向维度能够承载完整的决策负荷。- N 黑洞 —— 聚类感知的稀疏删除 (v102+) —— N BH（工作节点 1551）与主 BH 共享环面删除引擎，但调参不同：它采用 kNN 密度检查机制，即使在访问频次极低时也能保护重复出现的模式，使 N 库得以维持稀疏且高分支的几何结构，而不被 Main 库的致密聚类吸引子拖拽。两个黑洞、两个库、两套截然不同的物理规则——源自同一数据流。- 梦境/和弦/物理耦合 (动能流形, v126+) —— 三组梦境工作节点（1552–1557）在 N 库与主库间缓流经游，提供漂移、情景瞬移回溯以及由透镜驱动的引力吸引。这些是“振动通道”，将 N 库的物理运动转化为主观的时间感知与记忆召回。存档方式： GitHub 仓库时间戳、开源仿真记录及硬件复现数据。— ## ⚠️ 安全与免责声明 MaGi_python 是一个实验性认知平台。按“原样”提供，仅供科研与教学使用。在实体硬件上运行时可能产生不可预测的输出。请自行承担风险——作者不对任何损害负责。商业用途需获得授权（见 License）。— ## 🚀 快速开始 ### 1. 环境要求 `bashpip install torch torchvision torchaudiopip install numpy opencv-python pyaudio mss pillowpip install pyserialpip install ale-py gymnasium[atari] # 可选 — 桥接语音 (Kokoro TTS)pip install kokoro sounddevice num2words` 强烈建议配备支持 CUDA 的 NVIDIA GPU。系统可在无 GPU 环境下运行（将 fallback 至纯 Python 物理路径），但吞吐量会下降约一个数量级。### 2. 仓库结构````MaGi_python/├── MaGi.py # 主入口 — 当前构建版├── adaptive_scaler.py # 必需 — 自动范围缩放器 (ALE 等)├── bridge.py # 必需 — Resonance Bridge 控制器├── fused_physics_v117.cu # CUDA 内核源码├── magi_wrapper_v117.cpp # C++/PyBind 封装├── magi_cuda_loader_v117.py # CUDA 加载器 (加载编译后的扩展模块)├── compiled/ # 编译输出存放目录├── so101arm/ # SO-101 机械臂辅助工具 (Genesis 仿真桥接)├── memtest.py # 独立内存冒烟测试├── LICENSE└── README.md```### 3. 编译 CUDA 内核当前版本通过融合 CUDA 物理内核来处理透镜/正弦振荡器更新。运行前您需要执行一次编译。MaGi 将会优雅地

相似文章

@DanKornas：大多数 AI 智能体仍然将视觉、语言和行动分离到不同的系统中。Magma 是微软研究院的一个基础…

X AI KOLs Timeline

Magma 是微软研究院推出的一个开源仓库，用于构建整合视觉、语言和行动的多模态 AI 智能体，提供模型链接、推理示例、训练说明和演示。

Helix_AGI 个人项目

Reddit r/AI_Agents

一位开发者分享了 Helix-AGI，这是一个持续运行的认知代理，使用基于物理的记忆检索系统，通过熵引力方程和欧拉-拉格朗日动力学，整合了时间近性、结构重要性和语义邻近性，无需单独调整权重。

@oliviscusAI: 微软开源了一个系统，让一个AI控制数百个其他AI模型。它叫做JARVIS。• 处理文本…

X AI KOLs Timeline

微软开源了JARVIS，该系统使用GPT控制器编排来自HuggingFace的数百个AI模型，用于多模态任务。

rohitg00/agentmemory

GitHub Trending (daily)

agentmemory 是一个开源的持久化记忆层，专为 AI 编程智能体（Claude Code、Cursor、Gemini CLI、Codex CLI 等）设计。它通过知识图谱、置信度评分和混合搜索技术，借助 MCP、Hooks 或 REST API，为智能体提供跨会话的长期记忆能力。该项目基于 iii 引擎构建，无需外部数据库，提供 51 个 MCP 工具。

@damianplayer: 麻省理工学院学生为AI赋予身体。摄像头看到你面前的东西。你说出你的需求。设备移动你的手指…

X AI KOLs Timeline

麻省理工学院学生建造了一种设备，通过摄像头和电脉冲为AI赋予物理身体，可以移动手指，从而执行弹钢琴、画画等任务，由Claude驱动，48小时内完成。

相似文章

@DanKornas：大多数 AI 智能体仍然将视觉、语言和行动分离到不同的系统中。Magma 是微软研究院的一个基础…

Helix_AGI 个人项目

@oliviscusAI: 微软开源了一个系统，让一个AI控制数百个其他AI模型。它叫做JARVIS。• 处理文本…

rohitg00/agentmemory

@damianplayer: 麻省理工学院学生为AI赋予身体。摄像头看到你面前的东西。你说出你的需求。设备移动你的手指…

提交意见反馈