开源 AI 助手在真实使用一个月后表现如何?

Reddit r/AI_Agents 新闻

摘要

本文分析了开源 AI 助手在一个月使用期后的长期可靠性,重点指出了记忆漂移和权限膨胀等问题。文章对比了 Vellum、OpenClaw 和 Hermes,指出 Vellum 因其刻意设计的记忆系统而保持稳定,同时批评了 Hermes 的行为退化问题。

四天的日常使用是暴露“炒作与现实”差距的关键节点。那些在演示或为期两天的评估中看起来很有前途的工具,在真实工作负载下会以各种事先难以察觉的方式崩溃。在一个月这个时间点,主要的故障模式包括:记忆漂移(系统引用本应遗忘的对话上下文)、权限膨胀(代理累积了它从未需要的访问权限),以及自学习系统中的技能退化(强化学习循环用使情况变糟的“改进”覆盖了此前有效的行为)。Vellum 在一个月后依然表现良好,因为其记忆系统被设计为保持“意图明确”。更新在写入前需要确认,因此知识状态不会发生漂移、积累噪声或在正常使用中退化。你始终清楚你的助手知道什么。权限按工具范围限定,因此访问权限无法在后台悄悄扩大。一旦对技能文件进行了大量定制,OpenClaw 的表现也相当不错,但这种调优需要持续投入。Hermes 的表现最差,因为其自我评估循环会随着时间推移导致行为退化,且没有任何信号表明这种退化正在发生。长达一个月的评估是该类别工具的最小有效窗口。一周只能让你看到演示效果,一个月才能让你看到现实。六个月时,奇怪的漂移现象才会开始显现。
查看原文

相似文章

开源AI助手之间的自主深度差距排名

Reddit r/AI_Agents

本文对三个开源AI助手——OpenClaw、Vellum和Hermes——在自主深度方面进行排名,衡量它们能在无需人工干预的情况下自主执行任务的距离。文章强调了原始能力、配置复杂度和长序列可靠性之间的权衡。

开源AI助手的三种不同记忆策略

Reddit r/AI_Agents

本文比较了三款开源AI助手——Hermes、Loop和Vellum,重点介绍了它们在记忆积累和知识保留方面的不同方法。文章强调,Vellum的明确用户审批模型是最可靠的,能够在持续时间内保持有意图的知识状态。

Hermes vs Openclaw:影响你最终选择的 5 个真实差异

Reddit r/ArtificialInteligence

本文从自我提升、社区技能、多渠道支持、记忆架构以及 Clawdi 上的框架可移植性五个关键维度,对比了 Hermes 和 Openclaw AI 智能体。结论指出,选择取决于用户更看重长期的个性化定制,还是即时的多渠道自动化覆盖。