我在Apple Silicon上使用MLX和OpenClaw集成了新的δ-mem研究!我的发现

Reddit r/LocalLLaMA 论文

摘要

作者使用MLX和OpenClaw在Apple Silicon上实现了δ-mem研究论文,展示了在本地AI代理测试中的内存和注意力改进,尽管与CUDA基准相比结果好坏参半。

所以我对内存问题非常着迷,得出结论认为上下文管理过于高层,而动态改变权重才是最佳方案。幸运的是,今天早上我查看了新闻推送,看到了这篇新论文![https://arxiv.org/abs/2605.12357](https://arxiv.org/abs/2605.12357) 它改进了模型的注意力方向,无需使用上下文或LoRA,根据他们的测试,答案准确率提升了20%!它不使用直接的内存查询或上下文,而是使用加权注意力方向。我想在我的MacMini 64GB Apple Silicon上试试,看能否提升我的代理的回复质量。本地代理已经可用,但即使是微小的提升也会是巨大的!我使用MLX实现了它(顺便说一下,比Ollama快得多),并测试了有无OpenClaw会话历史的情况。[https://github.com/elimaine/delta-mem-mlx-sidecar-w-openclaw](https://github.com/elimaine/delta-mem-mlx-sidecar-w-openclaw) 这是我做的适配器,以便它能与MLX配合使用:[https://huggingface.co/ofthetrees/delta-mem-qwen3-4b-instruct-mlx-adapter](https://huggingface.co/ofthetrees/delta-mem-qwen3-4b-instruct-mlx-adapter) δ-mem论文结果(Qwen3-4B-Instruct)显示出了显著的提升: - 相对于冻结主干:`1.10x` - MemoryAgentBench:`1.31x` - LoCoMo:`1.20x` 本地归一化的MLX测试结果则更为混杂(我正在修正这个表格,无上下文的数字具有误导性): **| 结果 | 原始 | δ-mem | 提升倍数 |** **|---|---:|---:|---:|** **| LoCoMo仅状态 | 0.0500(误导性,热身阶段) | 0.1833 | 3.67x |** **| LoCoMo会话上下文 | 0.4667 | 0.5000 | 1.07x |** **| OpenClaw重放 | 0.5701 | 0.6667 | 1.17x |** - 合成探针结果持平。 - LoCoMo-mini显示出惊人的相对提升。 - OpenClaw风格的重放显示出较小但更具实际意义的改进(通过探针数从`6/8`提升到`7/8`)。 总体而言,论文的基准测试看起来是真实的,本地测试表明δ-mem在现实的重放/内存场景中确实在发挥有用功能。最后……较低的结果是意料之中的,因为Apple Silicon无法高效运行CUDA。我真的很想在我目前最喜欢的本地模型qwen3.6:27b for mlx上试试,但需要训练一个适配器模型。我目前估计在云端运行需要大约6000美元,因为我目前失业(求雇用),所以现在负担不起。如果有人有大计算机可以接替我,代码几乎都准备好了,只需要调整适配器生成以适应新Qwen的注意力结构。原始测试已经是在Qwen上进行的,所以帮助很大。感谢阅读!我为这个项目感到骄傲,这是我首次在开源AI领域取得突破性进展!
查看原文

相似文章

Metal-Sci:用于 Apple Silicon 上 LLM 驱动演化内核搜索的科学计算基准

Hugging Face Daily Papers

Metal-Sci 推出了一项包含 10 个任务的基准测试,用于优化 Apple Silicon 上的科学计算内核,并配套了由大语言模型驱动的演化搜索框架。该研究评估了 Claude Opus 4.7、Gemini 3.1 Pro 和 GPT 5.5 等模型,在实现显著加速的同时,利用分布外测试来捕获静默的性能退化问题。