我构建了一个 Hermes 技能,其中 3 个 AI 模型相互争论后才给出答案——采用 RRF 和 Borda Count 排名的对抗式多模型共识

Reddit r/AI_Agents 工具

摘要

PolyGnosis 是一个基于 Hermes 技能构建的对抗式多模型共识系统。它并行运行三个具有不同专家角色的 AI 模型,然后进入对抗性批评阶段,通过 RRF 和 Borda Count 进行评分,最后通过合成门——所有这些都使用 DeepSeek V4-Pro 以智能体方式构建。

我构建了一个对抗式多模型共识系统作为 Hermes 技能——136 次 API 调用,1680 万 tokens,完全由智能体构建。 大多数 AI 管道只运行一个模型,给出一个答案,就完事了。没有第二意见。没有反驳。我想要一个在给出结果之前能自我争论的东西。所以我构建了 PolyGnosis。 **它的功能** 三个前沿模型并行且独立地解决同一个问题。每个模型都会被动态分配一个专家角色——安全审计员、后端架构师、DBA 顾问——并且每个角色有不同的工具访问权限。审计员可以读取,构建者可以写入。这不仅仅是不同的提示,而是实际角色的专用工具。 然后进入对抗性批评阶段,将每个解决方案彻底剖析。错误、幻觉、边缘情况、安全漏洞。严重发现会被记录到反思缓冲区中,使得系统永远不会重复相同的错误。 在此之后,两种确定性排名算法——RRF(倒数排名融合)和 Borda Count——对解决方案进行评分。当两种算法在获胜者上达成一致时,你就知道它是可靠的。不是靠感觉,而是靠数学。 一个合成器将最强的元素合并为一个输出,然后 Constitutional Quality Gate 检查合并是否实际有所改进。如果合成引入了错误或降低了质量,该门会拒绝它并转而提供最佳的个人解决方案。 还有一个早期解决回路——如果三个求解器从一开始就独立达成一致,它会跳过批评和评分阶段。在共识已经存在的情况下,无需浪费计算资源。 **构建方式** 整个系统是通过在 Hermes 上使用 DeepSeek V4-Pro 的智能体提示驱动开发构建的。136 次 API 调用。1680 万 tokens。1 小时 54 分钟。 PolyGnosis 构建于 PolyBrain 之上,这是我的 Hermes 多模型编排技能。开源。欢迎反馈。我很想听听是否有其他人在 Hermes 或其他 AI 智能体上构建多智能体共识系统。
查看原文

相似文章

观察AI模型彼此意见分歧出乎意料地有用

Reddit r/AI_Agents

本文讨论了比较多个AI模型的回答如何揭示推理中的漏洞和不确定性,并提出轻量级的多模型比较作为一种有用的验证层,在复杂的智能体编排之前进行应用。