@akshay_pachaar: Hermes Mixture of Agents (MoA) 详解。每个智能体只使用一个模型，但每个模型都有盲点，而其他...

X AI KOLs Following 2026/06/28 13:41 工具

hermes-agent mixture-of-agents nous-research ai-agent multi-model benchmark explainer

摘要

Nous Research 的 Hermes Agent 引入了 Mixture of Agents (MoA)，允许用户定义预设，将多个模型用于咨询，并由一个最终回答模型整合，通过覆盖盲点来提升性能。该功能无缝集成到现有的智能体循环中，保留了工具、记忆和上下文。

Hermes Mixture of Agents (MoA) 详解。每个智能体只使用一个模型，但每个模型都有盲点，而其他模型本可发现这些盲点。常规的变通方法是手动将同一提示交给几个模型运行，然后调和答案。这虽然有效，但发生在智能体之外，因此一旦开始旁路，工具、记忆和会话上下文便会丢失。 Nous Research 的 Hermes Agent 刚刚推出了 Mixture of Agents，将整个过程重新整合到智能体内部。你操作的单位是预设（preset）。可以将其视为一个配方，指定几个用于咨询的模型和一个用于撰写最终答案的模型，保存为一个可复用的标签。因此，一个预设可能列出 GPT-5.5 和 DeepSeek 作为咨询模型，而 Opus 作为回复模型。你只需设置一次，给它一个名字，之后就可以像选择其他模型一样选用它。你咨询的模型会先运行，静默地将它们的分析交给撰写答案的模型。最终模型才是实际回复和发起工具调用的那个，现在它基于多个视角而非单一视角做出判断。这里的关键在于：预设表现为一个模型，而不是一个需要手工拼接的框架。因此，Hermes 中已有的所有功能继续生效。工具调用、后续迭代、记忆和相同的会话上下文行为与单个模型时完全一致，因为对智能体循环而言，它就是一个模型。这些模型可以来自任何地方。一个预设可以混合 OpenAI、Anthropic、DeepSeek 和 Google，而且不限于两个。这种设计带来了几个特点。 → 它组合模型而非选择模型。多个模型相互覆盖盲点，可能胜过最强的一个单独表现。 → 它保持低成本运行。咨询模型看到的是精简后的对话视图，因此额外调用负担很轻，主要上下文也能保留缓存。 → 它可以超越任何单一前沿模型。组合已掌握的不同提供商，可以构建出一个在得分上超越最佳可用单一模型的复合体。 → 它是个旋钮，而非默认设置。在需要第二意见的困难任务（占10%）上开启，在注重速度的常规工作上保持关闭。 Nous 报告了在其自身基准上的效果。一个预设以 Opus-4.8 运行，以 GPT-5.5 为参考，得分比任一单独模型高约六分，幅度为百分之八到十一。教训不是必须有一个模型胜出，而是最佳答案很少来自单一模型，并且智能体应该让混合模型像选择单个模型一样简单。也就是说，如果你想设置 Hermes，我写了一篇深度文章，涵盖了 Hermes 智能体的架构、记忆系统、自进化技能、GEPA 优化以及如何设置多个专业智能体。该文章引用如下。你也可以观看我在 YouTube 上的 Hermes 智能体速成课程：https://youtube.com/watch?v=bNp6YcKBLgY…

查看原文

查看缓存全文

缓存时间: 2026/06/28 16:04

Hermes 混合代理（MoA）解析。

每个代理只绑定一个模型，而每个模型都有其他模型能捕捉到的盲区。

通常的变通办法是手动把同一个提示词扔给几个模型跑一遍，然后拼合答案。这办法有用，但它活在代理外面——一旦开始绕道，工具、记忆和会话上下文就全丢了。

Nous Research 发布的 Hermes Agent 刚刚推出了 Mixture of Agents（混合代理），把整个流程重新收回到代理内部。

你操作的单元是一个预设（preset）。可以把它看作一个配方：指定几个模型用来咨询，再指定一个模型撰写最终答案，用标签保存下来方便复用。

比如，一个预设可以列出 GPT-5.5 和 DeepSeek 作为咨询模型，用 Opus 来回复。你只需设置一次，起个名字，以后就能像选其他模型一样选中它。

被咨询的模型先跑，悄悄地把它们的分析交给写答案的模型。那个最终模型才是实际回复和发起工具调用的那个，此时它已经拥有了多个视角，而非一个。

这里就是让一切成立的关键：预设被呈现为一个模型，而不是一个需要你去手动接线的框架。

因此，Hermes 里所有已经能用的东西继续能用。工具调用、后续迭代、记忆和同一个会话上下文的表现，与使用单一模型时完全一致——因为对代理循环来说，它就是一个模型。

这些模型可以从任何地方来。一个预设可以混合 OpenAI、Anthropic、DeepSeek 和 Google，而且上限不止两个。

这个设计带来了几个结果。

→ 它是组合一个模型，而不是选择一个模型。多个模型互相覆盖盲区，可以击败单独的最强模型。

→ 它运行起来依然便宜。被咨询的模型只看到会话的简化视图，所以额外的调用很轻量，主上下文也保持了缓存。

→ 它能触及任何单一前沿模型之不及。将已有的提供商组合起来，就能组装出一个超越当前最佳单独模型的复合体。

→ 它是一个旋钮，而不是默认项。在那些需要第二意见的棘手任务（大约 10%）中才打开，在追求速度的常规工作中保持关闭。

Nous 在自己的基准上报告了效果。一个运行 Opus-4.8 并参考 GPT-5.5 的预设，得分高于任意一个模型单独运行的结果——大约高出 6 分，即 8% 到 11%。

道理并非某个模型必须赢。而是，最好的答案很少来自单个模型，代理应该让混合模型变得跟选一个模型一样简单。

不过，如果你打算搭建 Hermes，我写过一篇完整的深度解析，覆盖了 Hermes 代理的架构、记忆系统、自我进化技能、GEPA 优化，以及如何设置多个专门代理。文章引用如下。

你还可以观看我在 YouTube 上关于 Hermes 代理的速成教程：https://youtube.com/watch?v=bNp6YcKBLgY…

TL;DR: Hermes 智能代理通过三层记忆系统、自我进化技能和 GAPA 技术实现“越用越好”,本文覆盖从架构到实战构建三个 24x7 代理(程序员 Neo、设计师 Pixel、深度研究员)的全部内容。

Hermes 智能代理的核心架构

所有请求都流经一个统一的 AI agent 类(script run agent.py 的一部分),通过 CLI、Telegram、批处理或 ID 进入。终端无关性(platform-agnostic)由此实现。转换层支持几乎所有模型(GPT、Gemini、本地 Ollama),通过三种 API 格式之一路由。每个任务有 90 轮硬上限,子代理共享同一预算,避免无限循环消耗 API 积分。内部运行“思考-行动-观察”的 ReAct 循环。

身份层:`soul.md`

soul.md 位于根 Hermes 文件夹,定义代理的角色与个性。系统提示槽位按顺序是:

soul.md(身份,固定框架)
记忆
技能文件
对话历史

memory.md 和 user.md 作为快照被纳入系统提示(每轮均在上下文中)。soul.md 是一次性写入、随时间调整的固定框架,代理之后的所有行为都通过这个个性视角发生。

三层记忆系统

第一层:始终在上下文的小型备忘录

memory.md:保持在 2200 字符,存储代理关于环境、项目约定、工具、艰难学到的笔记。
user.md:保持在 1375 字符,存储用户个人资料(名字、沟通偏好、技能水平、想避免的事情)。

两个文件在会话开始时作为冻结快照纳入系统根目录,每轮都在上下文中。

第二层:按需搜索的 SQLite 数据库

所有对话(CLI、Telegram 等)存储到启用全文搜索的 SQLite 数据库中。可以搜索数周前的聊天记录,但需要显式搜索调用 + LLM 总结。

第三层:即插即用的外部记忆提供商

支持知识图谱、时序知识图谱等外部记忆源。集成方式可参考文档。

核心规则:关键事实存在于第一层,其他一切可搜索,所有会话存储在 SQLite 中;需要更深持久化时连接外部提供商。

技能与自我进化机制

技能是一个 markdown 文件,以 YAML 前置元数据开头,包含名称和描述。采用 渐进式技能披露 机制:

零级:加载所有可用技能的 YAML 前置元数据(极小 token 消耗)。
一级:代理根据描述选择合适技能,然后逐步披露技能的步骤、陷阱、验证等完整内容。
二级:仅在技能引用其他内容时触发。

这样避免将所有技能全部加载到上下文,节省 token。代理可以 自我进化技能,即根据经验不断优化技能文件,这是 Hermes 区别于其他开源代理的关键特性。GAPA 技术(无需改变权重即可改进提示词)被 ICLR 2026 接收,进一步推动技能进化。

实战:构建三个 24x7 工作代理

1. Neo:云端程序员

配置:让其实时访问云端代码(如 GitHub 仓库)。当委托项目时,先创建计划、问几个问题确定规格,然后开始处理。演示中,Neo 对用户进行深度研究(职业、平台、公司等),然后构建了一个个人登录页面(index.html),包含写作、课程、GitHub 等标签链接。

2. Pixel:品牌设计师

通过自定义技能理解用户的设计风格(背景、插图风格、图标等)。只需给几个示例,它就能学会并坚持一致的品牌设计。演示中,Pixel 创建了一张解释 LLM 推理中“预填充阶段 vs 解码阶段”的手绘示意图,风格统一。

3. 深度研究员

扫描最新 GitHub 仓库、论文、AI/ML 趋势新闻,提供汇总信息。

快速上手建议

如果时间紧张,可直接跳到“入门”章节,命令可独立运行。但理解理论(技能进化、记忆组成、GAPA 何时发挥作用)能区分“把 Hermes 当作带节点的聊天工具”和“将其用作随时间累积价值的系统”。

Source: YouTube 视频链接 (https://www.youtube.com/watch?v=bNp6YcKBLgY)

@akshay_pachaar: Hermes Mixture of Agents (MoA) 详解。每个智能体只使用一个模型，但每个模型都有盲点，而其他...

Hermes 智能代理的核心架构

身份层:`soul.md`

三层记忆系统

第一层:始终在上下文的小型备忘录

第二层:按需搜索的 SQLite 数据库

第三层:即插即用的外部记忆提供商

技能与自我进化机制

实战:构建三个 24x7 工作代理

1. Neo:云端程序员

2. Pixel:品牌设计师

3. 深度研究员

快速上手建议

相似文章

@NousResearch: 最强模型受到限制，仅对少数人开放访问。Hermes Agent 现在将 MoA 预设暴露为 virt…

@PrajwalTomar_: Hermes Agent 刚刚推出了一项我近期见过的最有趣的功能。它将多个 AI 模型整合到一个…

@akshay_pachaar: https://x.com/akshay_pachaar/status/2054564519280804028

@tavilyai：Hermes Agent 让我们得以一窥智能体的未来走向——它从每次会话中学习，自主编写技能，并持续构建记忆…

NousResearch/hermes-agent

提交意见反馈

Hermes 智能代理的核心架构

身份层:soul.md

三层记忆系统

第一层:始终在上下文的小型备忘录

第二层:按需搜索的 SQLite 数据库

第三层:即插即用的外部记忆提供商

技能与自我进化机制

实战:构建三个 24x7 工作代理

1. Neo:云端程序员

2. Pixel:品牌设计师

3. 深度研究员

快速上手建议

相似文章

@NousResearch: 最强模型受到限制，仅对少数人开放访问。Hermes Agent 现在将 MoA 预设暴露为 virt…

@PrajwalTomar_: Hermes Agent 刚刚推出了一项我近期见过的最有趣的功能。它将多个 AI 模型整合到一个…

@akshay_pachaar: https://x.com/akshay_pachaar/status/2054564519280804028

@tavilyai：Hermes Agent 让我们得以一窥智能体的未来走向——它从每次会话中学习，自主编写技能，并持续构建记忆…

NousResearch/hermes-agent

提交意见反馈

身份层:`soul.md`