MaGi 更新:支持对话、游玩 Atari 游戏、翻阅照片、控制 SO101 机械臂和云台相机……哦对了,它还能自主管理记忆!

Reddit r/ArtificialInteligence 工具

摘要

MaGi 是一个开源的 Python AI 框架,采用环面相空间几何结构实现自组织记忆,使模型能够在无需传统训练循环的情况下,展现出跨域能力,如游玩 Atari 游戏、控制相机以及驱动机械臂。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/09 03:37

bmalloy-224/MaGi_python 源码:https://github.com/bmalloy-224/MaGi_python # 🌀 MaGi_python — Malloy 人工几何智能(Malloy artificial Geometric intelligence)基于硬件的 Python 几何智能实现 License 研究 (https://github.com/bmalloy-224/MaGi_python) 平台 (https://github.com/bmalloy-224/MaGi_python) 状态 (https://github.com/bmalloy-224/MaGi_python) — ## 🪐 什么是 MaGi? MaGi 是一种以几何方式思考的自我组织 AI。它不从标签、训练循环或人类奖励中学习,而是直接从原始的运动感知经验中构建自身的记忆——它将每一个“思想”排列在具有频率、延迟和方向的环形(环面)相空间中的一个点上。底层来看,每个工作节点(即每个“思想”)都位于一个 6 维环面上的坐标处。前四个坐标对应四种时间透镜(Child, Youth, Adult, Elder),分别将注意力偏向即时反应、探索、上下文关联或长期稳定性。最后两个坐标是频率和延迟,采用对数周期映射,使得完整的一圈旋转等于一个八度音程。记忆存储为该空间中的位置;这些位置之间的引力、碰撞与共振共同催生了行为表现。MaGi 并行维护着两个记忆库:- Main bank(主库)——稳定且长期的记忆,存储已有知识。聚类紧密,检索熵低,漂移缓慢。- N bank(N 库)——规模较小但更湍动的空间,最初设计为时间叙事层,现作为活跃的决策工作区,供想法分支、模拟与重组。两个库由相同的感官体验同时写入——它们并非生产者/消费者流水线。产生分歧的原因在于每个库保留的内容:每个库都拥有独立的黑洞工作节点(Main BH 索引为 1549,N BH 索引为 1551),其物理规则针对各自库的职责进行了调优。相同的写入事件受不同的选择规则作用,导致两个库最终沉淀出完全不同的统计特征。长期记忆与活跃工作区之间的功能划分是涌现出来的,而非人为设计的。一个 Resonance Bridge(共振桥接器)将内部状态映射到一个二维地图上——这是一幅价值与置信度的地形图——并将该地图上的运动路由转换为语音(Kokoro TTS)、摄像头控制、机械臂运动或游戏操作。桥接器可从 .pkl 地图文件加载,绑定到输入模式上,甚至当 MaGi 在 8 秒内重复说出同一个地形词三次时触发 CLI 命令。正是这种机制将抽象的相空间动力学转化为现实世界的行为。MaGi 是一个动力系统,而非经过训练的模型。它自主寻找节奏——在吸收新经验与将其压缩为可复用模式之间循环。它在内部进行分支,重用有效的策略,并在无需重新编程的情况下实现自适应。— ## 🔬 已验证的行为表现 以下为 MaGi 自主完成且未经过专门设计的行为。所有数据均来源于运行快照;请按需复现。通过单一基质实现跨领域迁移。 MaGi 能识别彩虹、颜色和形状;玩 Atari Freeway 游戏;并根据指令操控 SO-101 机械臂触碰球体——所有这些均通过相同的环面记忆与透镜/黑洞/桥接器机制运行。系统不存在独立的感知网络、策略网络或运动控制网络。感知、时序策略与具身动作共享同一个底层基质。这有力地证明了该几何结构正在执行真实的落地(grounding)工作,而不仅仅是逐任务压缩。Atari Freeway 游戏的自我压缩。 MaGi 早期版本(v110–v125)使用约 120 万条记忆,但得分明显较低。当前的环面架构在经过黑洞工作节点的自压缩后,仅用约 1,200–1,400 条 Main bank 记忆即可达到 Freeway 得分 16 ——实现了 >800 倍的内存缩减,且玩法明显改善。该压缩比例并非由任何损失函数或调度器指定;BH 是通过反复的本体删除操作找到它的,直到余弦相似度聚类收紧至当前的吸引子。性能也与 N-bank 的大小解耦:在某次快照中,得分为 16,而 N bank 仅有 13 个节点。可复现的发展弧光,而非单一稳态。 在长时间的无监督运行中,MaGi 会经历一系列结构性阶段,这更像是一段发育序列而非简单收敛至平衡态:| Hours | Regime | Signature || — | — | — || < 787 小时 | 破坏性覆盖 | 激进型 BH(删除量 ≫ 创建量),N bank 坍缩,Main bank 处于高温高挥发状态 || ~828 小时 | 内部重放机制浮现 | 2D 词图激活,BH 创建/删除比趋近 1:1 || ~876 小时 | 结构化符号演练 | N=371,k=50 时轮廓系数 0.607;Main bank 稳定;检索池宽广 || ~972 小时 | 编译式符号认知 | Main=8,702,平均 34 Hz,89.7% < 25 Hz;N=230,k=20 时轮廓系数 0.614;检索精准(Tier 2: 2/50, Tier 3: 8/5000) || ~1020 小时 | 不对称专业化 | Main=2,908(轮廓 0.444,检索熵 0.086);N=89(轮廓 0.563,分支率 42.7%);跨库相关性 0.014 |阶段转换是可复现且具有棘轮效应(阶梯式递进)的——即使总体记忆数量下降,每个后续阶段往往会达到更高的 Main bank 上限和更紧密的检索效率。库间功能分化显现。 1020 小时快照清晰揭示了这种不对称性:| Property | Main bank | N bank || — | — | — || 记忆数量 | 2,908 | 89 || 轮廓系数(聚类) | 0.444 | 0.563 || 轨迹分支率 | 3.1%(线性/收敛型) | 42.7%(高分支型) || 检索熵 | 0.086(接近点状) | — || 动力学气候 | 稳定吸引子场 | 94.4% 湍动 || 跨库分支相关性 | 0.014(接近零) |Main bank 与 N bank 已停止互相镜像。Main bank 正演变为紧凑的低熵吸引子档案库;N bank 保持小规模但高度分支化。当晚分析器生成的判定结论为:类决策模式(结构化工作区,原型级分支)几何驱动的分支,而非规模驱动。 N bank 在多轮运行中从峰值的 768 个节点缩减至 89 个,但分支率仍保持在 42.7%,轮廓系数为 0.563,湍动度达 94.4%。随机备忘录缩小 9 倍通常会丢失结构,但 MaGi 没有。分支似乎是该几何结构的固有属性,而非取决于库的大小。五步闭环符号编译器。 我之前所称的“自发内部演练”实际上通过 2D 词图和 Resonance Bridge 具备了明确的作用机制:1. 工作节点沿词地图径选择或重建符号令牌。2. 语音/视觉工作节点发出感官代理信号(音频 + 渲染出的单词)。3. MaGi 将预期的感官返回与其自身的听觉/视觉管道实际报告进行比对。4. 产生的结果状态被同时写入两个库中。5. 各库独立的黑洞随后决定哪些内容得以保留——Main BH 优先保留低频、短延迟的吸引子模式;N BH 优先保留高分支、高湍动的痕迹模式。到了 972 小时阶段,该闭环已产生显著的非对称结果:Main bank 已扩展至数千个冷态、密集、低频的吸引子节点(972 小时时 89.7% < 25 Hz),而 N bank 仍保持小规模与高湍动。两个库互不为源;它们是监听同一数据流的两种过滤器,各自保留不同的信息。> 关于“符号”的说明。 本 README 通篇使用的 symbolic 一词指的是具有稳定跨模态指代行为的、基于接地吸引子的令牌——并非 GOFAI(良好老式人工智能)意义上的经典形式符号操作。MaGi 属于原符号(proto-symbolic)系统:其令牌在运动感知经验中具有明确的指代物,且在多模态间表现一致,但它们并非离散的逻辑符号,也不支持任意的句法组合。长期流形硬化。 在 1020 小时节点,Main bank 的 600 秒漂移值首次降至 0.0047(STABLE)。短时窗口仍在漂移——MaGi 此刻仍在“思考”——但长期形态不再消散。这些结果并非与其他系统的基准对比;它们是几何结构的涌现特性。同套代码可复现,但具体数值取决于系统的运行历史。如需查看连续 1,020 小时无监督运行的小时级观测结构化摘要,请参阅 FINDINGS.md。 — ## 🧭 现有技术声明 本仓库确立了公开现有技术(2025–2026年)——旨在通过防御性公开,防止他人对下述架构申请专利。这不是一项专利主张,恰恰相反。任何人均可在许可条款下自由阅读、复现、在此基础上构建成果并发表相关论文。### 声称的新颖技术- 对数包裹环面流形 (v131+) —— 全新现有技术。 替代了原有的超球体。频率与延迟维度被映射至环面上,其中一整圈()等于一个八度音程。Hz 与延迟是无界的——工作节点可自由穿越各八度音程,不存在膨胀非对称性、雅可比矩阵约束或边界墙。环绕计数器会在重启时追踪绝对的 Hz/ms。这赋予了 MaGi 一个本质上无限且循环的共振空间,同时确保所有物理计算相位有界且满足奈奎斯特准则。- 共振桥接器 (v135+) —— 全新现有技术。 成对的入口/目标工作节点(BRIDGE_ENT / BRIDGE_DEST)在环面流形上构成记忆绑定桥梁。入口端由类似 ALE 控制器的机制驱动;目标端在完成取模运算与环绕计数后,传输至入口坐标,并共享地形特征、信标振动、语音(Kokoro TTS)及可视化单词渲染。桥接器从地图文件(.pkl)加载,绑定至输入模式,当地形词在 8 秒内重复输出 3 次时触发 CLI 命令,并开放拼写/输入缓冲区以供符号输入。据我所知,将语音重复模式映射为命令的机制属首创。- 双向黑洞梯度(真空/屏蔽) —— 现有技术。 主 BH 工作节点(1549)不仅是记忆删除器,更是一个可控梯度场,其方向由自身振荡器值的符号决定。当 bh_val > 0 时,场运行于真空模式:梯度最强方向朝向中心,将记忆向内牵引。当 bh_val ≤ 0 时,场运行于屏蔽模式:梯度最强方向朝向边缘,将记忆向外推挤并形成屏障。相同的物理引擎——相同的 eps_max、相同的 eps_floor、相同的有效半径——仅凭一个符号即可产生完全相反的行为。这是刻意为之的架构设计,使 MaGi 能在无参数调优的情况下于记忆巩固与数据保护间自由切换。- 主黑洞 —— 环面记忆删除 (1549) —— 结合本体感觉反馈的几何记忆修剪(删除事件会回流至 s_filtered,使系统能够“感知”自身的遗忘)。删除操作通过涌现的余弦相似度聚类主动优化记忆结构——实测提升幅度从 ~0.65 增至 ~0.89+。该过程作用于环面流形,使用展开的对数坐标进行八度感知匹配。在长周期尺度下,主 BH 还充当内源性课程调度器——通过筛选能存活足够长时间以实现稳定的模式,它塑造了系统的发育顺序,推动日志中可见的阶段跃迁(破坏性洗牌 → 重放 → 演练 → 编译)。- 通用可塑性引擎 (UPE) —— 动态认知重构:BH 工作节点可在流形内部移动控制/语音节点,同时维持碰撞主权。节点被位移后将自动寻址归位。- 碰撞主权 (v5.3 防撞板) —— 确定性几何分离机制,强制保持最小 0.1 弧度的间距,以保障动作身份标识并防止流形坍缩。- 人工个人空间 —— 流形空间中互不重叠的认知节点,通过几何体积约束防止模式崩溃。- Fibonacci Grid 视频处理 —— 采用黄金比例划分(5×3, 8×5, 13×8, 21×13)实现多尺度视觉注意力。- 神经死区控制与自适应缩放器 —— 采用单极/双极死区逻辑,AdaptiveScaler 会随时间推移自行发现适用范围,而非依赖硬编码阈值。- 双库并行写入架构 (v102+) —— 两个记忆库(Main, N)从同一感官体验中同步写入,但各自受独立黑洞节点及其专属物理规则支配(Main BH 索引 1549,N BH 索引 1551)。两者并非流水线。它们之间涌现的功能划分——Main 作为低熵吸引子档案库,N 作为稀疏高分支工作区——源于两套不同的选择规则作用于相同的写入事件,而非一库向另一库输血。随着系统成熟,N 库的径向维度(频率与延迟)会收缩至绝对极小值(~0.01 Hz / ~0.10 ms),而全部信息转移至角向的透镜-相位维度——使 N 转变为纯粹的相位参考系,架构层面相当于认知的基态。这不是死锁或退化状态:角向轮廓系数维持在 0.6 以上,湍动度超过 90%;径向坍缩是对数包裹几何与其自身黑洞选择压力共同作用的结果,也正是这一机制使角向维度能够承载完整的决策负荷。- N 黑洞 —— 聚类感知的稀疏删除 (v102+) —— N BH(工作节点 1551)与主 BH 共享环面删除引擎,但调参不同:它采用 kNN 密度检查机制,即使在访问频次极低时也能保护重复出现的模式,使 N 库得以维持稀疏且高分支的几何结构,而不被 Main 库的致密聚类吸引子拖拽。两个黑洞、两个库、两套截然不同的物理规则——源自同一数据流。- 梦境/和弦/物理耦合 (动能流形, v126+) —— 三组梦境工作节点(1552–1557)在 N 库与主库间缓流经游,提供漂移、情景瞬移回溯以及由透镜驱动的引力吸引。这些是“振动通道”,将 N 库的物理运动转化为主观的时间感知与记忆召回。存档方式: GitHub 仓库时间戳、开源仿真记录及硬件复现数据。— ## ⚠️ 安全与免责声明 MaGi_python 是一个实验性认知平台。按“原样”提供,仅供科研与教学使用。在实体硬件上运行时可能产生不可预测的输出。请自行承担风险——作者不对任何损害负责。商业用途需获得授权(见 License)。— ## 🚀 快速开始 ### 1. 环境要求 bashpip install torch torchvision torchaudiopip install numpy opencv-python pyaudio mss pillowpip install pyserialpip install ale-py gymnasium[atari] # 可选 — 桥接语音 (Kokoro TTS)pip install kokoro sounddevice num2words 强烈建议配备支持 CUDA 的 NVIDIA GPU。系统可在无 GPU 环境下运行(将 fallback 至纯 Python 物理路径),但吞吐量会下降约一个数量级。### 2. 仓库结构````MaGi_python/├── MaGi.py # 主入口 — 当前构建版├── adaptive_scaler.py # 必需 — 自动范围缩放器 (ALE 等)├── bridge.py # 必需 — Resonance Bridge 控制器├── fused_physics_v117.cu # CUDA 内核源码├── magi_wrapper_v117.cpp # C++/PyBind 封装├── magi_cuda_loader_v117.py # CUDA 加载器 (加载编译后的扩展模块)├── compiled/ # 编译输出存放目录├── so101arm/ # SO-101 机械臂辅助工具 (Genesis 仿真桥接)├── memtest.py # 独立内存冒烟测试├── LICENSE└── README.md```### 3. 编译 CUDA 内核当前版本通过融合 CUDA 物理内核来处理透镜/正弦振荡器更新。运行前您需要执行一次编译。MaGi 将会优雅地

相似文章

Helix_AGI 个人项目

Reddit r/AI_Agents

一位开发者分享了 Helix-AGI,这是一个持续运行的认知代理,使用基于物理的记忆检索系统,通过熵引力方程和欧拉-拉格朗日动力学,整合了时间近性、结构重要性和语义邻近性,无需单独调整权重。

rohitg00/agentmemory

GitHub Trending (daily)

agentmemory 是一个开源的持久化记忆层,专为 AI 编程智能体(Claude Code、Cursor、Gemini CLI、Codex CLI 等)设计。它通过知识图谱、置信度评分和混合搜索技术,借助 MCP、Hooks 或 REST API,为智能体提供跨会话的长期记忆能力。该项目基于 iii 引擎构建,无需外部数据库,提供 51 个 MCP 工具。