我在Apple Silicon上使用MLX和OpenClaw集成了新的δ-mem研究!我的发现
摘要
作者使用MLX和OpenClaw在Apple Silicon上实现了δ-mem研究论文,展示了在本地AI代理测试中的内存和注意力改进,尽管与CUDA基准相比结果好坏参半。
所以我对内存问题非常着迷,得出结论认为上下文管理过于高层,而动态改变权重才是最佳方案。幸运的是,今天早上我查看了新闻推送,看到了这篇新论文 它改进了模型的注意力方向,无需使用上下文或LoRA,根据他们的测试,答案准确率提升了20%!它不使用直接的内存查询或上下文,而是使用加权注意力方向。我想在我的MacMini 64GB Apple Silicon上试试,看能否提升我的代理的回复质量。本地代理已经可用,但即使是微小的提升也会是巨大的!我使用MLX实现了它(顺便说一下,比Ollama快得多),并测试了有无OpenClaw会话历史的情况。[https://github.com/elimaine/delta-mem-mlx-sidecar-w-openclaw](https://github.com/elimaine/delta-mem-mlx-sidecar-w-openclaw) 这是我做的适配器,以便它能与MLX配合使用:[https://huggingface.co/ofthetrees/delta-mem-qwen3-4b-instruct-mlx-adapter](https://huggingface.co/ofthetrees/delta-mem-qwen3-4b-instruct-mlx-adapter)
δ-mem论文结果(Qwen3-4B-Instruct)显示出了显著的提升:
- 相对于冻结主干:`1.10x`
- MemoryAgentBench:`1.31x`
- LoCoMo:`1.20x`
本地归一化的MLX测试结果则更为混杂(我正在修正这个表格,无上下文的数字具有误导性):
**| 结果 | 原始 | δ-mem | 提升倍数 |**
**|---|---:|---:|---:|**
**| LoCoMo仅状态 | 0.0500(误导性,热身阶段) | 0.1833 | 3.67x |**
**| LoCoMo会话上下文 | 0.4667 | 0.5000 | 1.07x |**
**| OpenClaw重放 | 0.5701 | 0.6667 | 1.17x |**
- 合成探针结果持平。
- LoCoMo-mini显示出惊人的相对提升。
- OpenClaw风格的重放显示出较小但更具实际意义的改进(通过探针数从`6/8`提升到`7/8`)。
总体而言,论文的基准测试看起来是真实的,本地测试表明δ-mem在现实的重放/内存场景中确实在发挥有用功能。最后……较低的结果是意料之中的,因为Apple Silicon无法高效运行CUDA。我真的很想在我目前最喜欢的本地模型qwen3.6:27b for mlx上试试,但需要训练一个适配器模型。我目前估计在云端运行需要大约6000美元,因为我目前失业(求雇用),所以现在负担不起。如果有人有大计算机可以接替我,代码几乎都准备好了,只需要调整适配器生成以适应新Qwen的注意力结构。原始测试已经是在Qwen上进行的,所以帮助很大。感谢阅读!我为这个项目感到骄傲,这是我首次在开源AI领域取得突破性进展!
相似文章
昨天我看到一篇关于 δ-mem 并与 openclaw 集成的新研究论文
一篇关于 δ-mem 的新研究论文在与 openclaw 集成后,将智能体响应质量提升了 7-32%。该项目目前仅适用于 mlx 和 Qwen3:4b,但预计会推出其他模型的适配器。
我为Apple Silicon打造了最快的本地AI引擎。专为代理式使用优化。
作者宣布发布'lightning-mlx',这是一个针对Apple Silicon优化的本地AI引擎,可为编码代理和工具调用工作流实现高令牌速度。
@neural_avb:我正在将SAM模型及其工具套件移植到Apple silicon上。已经在mlx上看到1.25倍推理速度提升……
将SAM 2.1模型移植到Apple silicon上(使用MLX),在小模型上实现了1.25倍推理速度提升,计划推出量化版。
@ivanfioravanti: Apple M5 Max + MLX = 原始算力!看看我正在玩的“FasterLivePortrait-MLX”演示,我从 MPS 开始,但结果不……
作者演示了在搭载 M5 Max 芯片的设备上,将 LivePortrait 的实现从 MPS 迁移到 Apple 的 MLX 框架后,性能和速度有了显著提升。
Metal-Sci:用于 Apple Silicon 上 LLM 驱动演化内核搜索的科学计算基准
Metal-Sci 推出了一项包含 10 个任务的基准测试,用于优化 Apple Silicon 上的科学计算内核,并配套了由大语言模型驱动的演化搜索框架。该研究评估了 Claude Opus 4.7、Gemini 3.1 Pro 和 GPT 5.5 等模型,在实现显著加速的同时,利用分布外测试来捕获静默的性能退化问题。