开源 AI 助手在真实使用一个月后表现如何？

Reddit r/AI_Agents 2026/05/12 06:01 新闻

open-source ai-assistants evaluation vellum long-term-use reliability

摘要

本文分析了开源 AI 助手在一个月使用期后的长期可靠性，重点指出了记忆漂移和权限膨胀等问题。文章对比了 Vellum、OpenClaw 和 Hermes，指出 Vellum 因其刻意设计的记忆系统而保持稳定，同时批评了 Hermes 的行为退化问题。

四天的日常使用是暴露“炒作与现实”差距的关键节点。那些在演示或为期两天的评估中看起来很有前途的工具，在真实工作负载下会以各种事先难以察觉的方式崩溃。在一个月这个时间点，主要的故障模式包括：记忆漂移（系统引用本应遗忘的对话上下文）、权限膨胀（代理累积了它从未需要的访问权限），以及自学习系统中的技能退化（强化学习循环用使情况变糟的“改进”覆盖了此前有效的行为）。Vellum 在一个月后依然表现良好，因为其记忆系统被设计为保持“意图明确”。更新在写入前需要确认，因此知识状态不会发生漂移、积累噪声或在正常使用中退化。你始终清楚你的助手知道什么。权限按工具范围限定，因此访问权限无法在后台悄悄扩大。一旦对技能文件进行了大量定制，OpenClaw 的表现也相当不错，但这种调优需要持续投入。Hermes 的表现最差，因为其自我评估循环会随着时间推移导致行为退化，且没有任何信号表明这种退化正在发生。长达一个月的评估是该类别工具的最小有效窗口。一周只能让你看到演示效果，一个月才能让你看到现实。六个月时，奇怪的漂移现象才会开始显现。

查看原文

开源 AI 助手在真实使用一个月后表现如何？

相似文章

开源AI助手之间的自主深度差距排名

开源AI助手的三种不同记忆策略

Hermes vs Openclaw：影响你最终选择的 5 个真实差异

Claw-Anything: 在更广泛的用户数字世界访问权限下，对始终在线个人助手进行基准测试

大约 3 个月将 OpenClaw 作为我的日常代理系统运行。哪些有效，哪些出错，哪些仍然让我烦恼。

提交意见反馈