我发现了一种让Ollama用户获得更好记忆且更便宜的方法，因为Ollama现在使用了GPU。真正的记忆，可自动持续更新，支持个人或团队设置。献给HERMES用户

Reddit r/artificial 2026/05/26 19:08 工具

ollama memory hermes atomic-memory gpu-usage semantic-search conflict-detection

摘要

Atomic Memory是一个工具，它通过每轮更新、语义召回、冲突检测和低成本GPU使用来升级Ollama的记忆系统，解决了Hermes内置记忆的局限性。它使用一个小型专用模型，为个人或团队提供高效且无限制的记忆管理。

我借助AI对其进行了改写，使其更易读。我看到很多人遇到了和我一样的问题。不仅仅是大型模型变慢了，GPU使用率也非常高，且消耗极快。Ollama已今非昔比。我使用DeepSeek V4 Flash，效果很好。对于较重的编码任务或某些复杂提示，我会切换到Pro版。但在Pro版上，每个提示约消耗我3–5%的使用量。（我使用的是Pro计划。）**记忆一直是个热门话题。** Hermes Native做得不错。以下是其内置记忆系统的工作原理： * `memory_enabled` – 每轮对话后，代理可以写入笔记到`MEMORY.md` * `user_profile_enabled` – 代理会观察用户偏好并将其写入`USER.md` * `flush_min_turns: 6` – 每6轮，Hermes会执行一次“整合”过程：重新读取最近的对话并重写`MEMORY.md`以捕获新信息 * `nudge_interval: 10` – 每10轮，Hermes会提示代理“有要记住的吗？” # 我的发现：Atomic Memory（[https://github.com/atomicstrata/atomicmemory](https://github.com/atomicstrata/atomicmemory)） **优势：** * ✅ **每轮更新** – 每轮都提取信息，而不是每6轮 * ✅ **低成本** – 使用小型专用模型 * ✅ **语义召回** – 仅注入相关的记忆，而非整个文件 * ✅ **冲突检测** – 内置AUDN逻辑可检测矛盾 * ✅ **无限制** – 无2200字符限制；可存储10,000+条记忆 * ✅ **时间感知** – 处理如“我上周说了什么？”这类查询 * ✅ **复合摘要** – 将相关事实链接成更高级别的摘要 # 示例场景（未使用Atomic Memory）假设你在一天内三次更改会议时间： * **第1轮：** “会议6月3日” → `MEMORY.md`中记录“会议：2026年6月3日下午5点” * **第5轮：** “实际上改为6月5日” → 尚未触发刷新（需要6轮）→ `MEMORY.md`未改变 → 此时如果你询问，Hermes仍会回答“6月3日” * **第6轮：** “会议改为6月1日” → 触发刷新！代理重新读取对话，看到所有三个日期，重写`MEMORY.md`……但使用哪个日期？通常是最后一个，但不保证。有时文件会包含两个日期或过时信息。 * **第9轮：** 你问“会议是什么时候？” → 机器人读取`MEMORY.md` → 获取整合时选择的信息 → 可能错误。 **使用Atomic Memory：** 每次更新会立即触发AUDN，取代旧的事实，最新的胜出。没有6轮延迟，无需猜测。 # Atomic Memory之前Hermes能否自动更新？可以，但仅适用于变化缓慢的事实、低容量记忆需求和单一话题的聊天。内置的刷新+提示循环确实有效，只是效果没那么好。 **Atomic Memory是升级，而非替代。** 它新增了： * 每轮更新（对比每6轮） * 语义搜索（对比全文件注入） * 冲突感知更新（对比追加或重写） * 无大小限制（对比2.2KB上限） * 时间感知（对比“所有事实感觉同样新鲜”） * 低成本GPU使用（小型专用模型）代价是增加一个Docker容器，且GPU成本几乎为零，因为`ministral-3:3b`非常小。你甚至可以使用更小、无需推理能力的模型，`gemma3:4b`也行。从这里，你可以看到实际用例，无论是团队还是个人。你无需纠正它；它自己会处理。 # 我好奇的是 Atomic Memory如何与**LLMWIKI**联动，使两者协同工作，更新和删除旧数据以保持LLMWIKI洁净。LLMWIKI仍然重要，它就像你的Google Drive。 **你怎么看？** 试试Atomic Memory吧。我不是其创始人或相关方。我只是想帮助Ollama社区。当然，它可能需要额外花费一些积分，但由于Ollama速度慢，拥有良好的记忆有助于更快找到信息，从而减少浪费。如果你喜欢这个，希望它能帮到你！或许也给他们一个GitHub星标，他们真的帮了我大忙。

查看原文

相似文章

如果你使用Hermes足够久，你将会遇到MEMORY md墙。以下是我们对此所做的。

Reddit r/AI_Agents

AtomicMemory是Hermes代理的一个新记忆层，它用每轮分类替换了6轮刷新周期，并通过将声明存储在Postgres中移除了2.2KB的记忆上限，全部运行在一个小型本地3B模型上。

@midudev: 如果你想在本地使用AI并获得良好性能，不要用Ollama。它不能充分利用你的GPU。最好使用vLLM：…

X AI KOLs Timeline

一条推文推荐使用vLLM代替Ollama进行本地AI，理由是更好的GPU利用率、更高的效率，以及在测试中速度提升高达2倍。vLLM是一个快速、开源的LLM推理和服务库，支持多种模型和硬件后端。

@KSimback: https://x.com/KSimback/status/2058262328496554021

X AI KOLs Timeline

一份关于Hermes Agent记忆系统的全面指南，解释了三层记忆架构，并比较了各种记忆工具和提供商。

YourMemory

Product Hunt

<p>通过自剪枝 MCP 记忆，Token 浪费减少 84%</p> <p> <a href="https://www.producthunt.com/products/yourmemory?utm_campaign=producthunt-atom-posts-feed&utm_medium=rss-feed&utm_source=producthunt-atom-posts-feed">讨论</a> | <a href="https://www.producthunt.com/r/p/1128311?app_id=339">链接</a> </p>

@Saboo_Shubham_: Hermes 桌面应用现已支持 Ollama。本地 AI 代理和开源模型 24/7 免费运行。这就是你…

X AI KOLs Following

Hermes 桌面应用现已支持 Ollama，用户可以 24/7 免费运行本地 AI 代理和开源模型。