我在Apple Silicon上使用MLX和OpenClaw集成了新的δ-mem研究！我的发现

Reddit r/LocalLLaMA 2026/05/16 21:34 论文

apple-silicon mlx memory attention open-source fine-tuning research

摘要

作者使用MLX和OpenClaw在Apple Silicon上实现了δ-mem研究论文，展示了在本地AI代理测试中的内存和注意力改进，尽管与CUDA基准相比结果好坏参半。

所以我对内存问题非常着迷，得出结论认为上下文管理过于高层，而动态改变权重才是最佳方案。幸运的是，今天早上我查看了新闻推送，看到了这篇新论文！[https://arxiv.org/abs/2605.12357](https://arxiv.org/abs/2605.12357) 它改进了模型的注意力方向，无需使用上下文或LoRA，根据他们的测试，答案准确率提升了20%！它不使用直接的内存查询或上下文，而是使用加权注意力方向。我想在我的MacMini 64GB Apple Silicon上试试，看能否提升我的代理的回复质量。本地代理已经可用，但即使是微小的提升也会是巨大的！我使用MLX实现了它（顺便说一下，比Ollama快得多），并测试了有无OpenClaw会话历史的情况。[https://github.com/elimaine/delta-mem-mlx-sidecar-w-openclaw](https://github.com/elimaine/delta-mem-mlx-sidecar-w-openclaw) 这是我做的适配器，以便它能与MLX配合使用：[https://huggingface.co/ofthetrees/delta-mem-qwen3-4b-instruct-mlx-adapter](https://huggingface.co/ofthetrees/delta-mem-qwen3-4b-instruct-mlx-adapter) δ-mem论文结果（Qwen3-4B-Instruct）显示出了显著的提升： - 相对于冻结主干：`1.10x` - MemoryAgentBench：`1.31x` - LoCoMo：`1.20x` 本地归一化的MLX测试结果则更为混杂（我正在修正这个表格，无上下文的数字具有误导性）： **| 结果 | 原始 | δ-mem | 提升倍数 |** **|---|---:|---:|---:|** **| LoCoMo仅状态 | 0.0500（误导性，热身阶段） | 0.1833 | 3.67x |** **| LoCoMo会话上下文 | 0.4667 | 0.5000 | 1.07x |** **| OpenClaw重放 | 0.5701 | 0.6667 | 1.17x |** - 合成探针结果持平。 - LoCoMo-mini显示出惊人的相对提升。 - OpenClaw风格的重放显示出较小但更具实际意义的改进（通过探针数从`6/8`提升到`7/8`）。总体而言，论文的基准测试看起来是真实的，本地测试表明δ-mem在现实的重放/内存场景中确实在发挥有用功能。最后……较低的结果是意料之中的，因为Apple Silicon无法高效运行CUDA。我真的很想在我目前最喜欢的本地模型qwen3.6:27b for mlx上试试，但需要训练一个适配器模型。我目前估计在云端运行需要大约6000美元，因为我目前失业（求雇用），所以现在负担不起。如果有人有大计算机可以接替我，代码几乎都准备好了，只需要调整适配器生成以适应新Qwen的注意力结构。原始测试已经是在Qwen上进行的，所以帮助很大。感谢阅读！我为这个项目感到骄傲，这是我首次在开源AI领域取得突破性进展！

查看原文

我在Apple Silicon上使用MLX和OpenClaw集成了新的δ-mem研究！我的发现

相似文章

昨天我看到一篇关于 δ-mem 并与 openclaw 集成的新研究论文

我为Apple Silicon打造了最快的本地AI引擎。专为代理式使用优化。

Command A+ (218B MoE) 在 Apple Silicon 上运行 — MLX 移植，PR 已开放

我构建了mlx-Chronos——一个面向Apple Silicon上本地LLM引擎的社区基准测试排行榜（oMLX、Rapid-MLX、mlx-lm、Ollama）

@neural_avb：我正在将SAM模型及其工具套件移植到Apple silicon上。已经在mlx上看到1.25倍推理速度提升……

提交意见反馈