开源 AI 助手在真实使用一个月后表现如何?
摘要
本文分析了开源 AI 助手在一个月使用期后的长期可靠性,重点指出了记忆漂移和权限膨胀等问题。文章对比了 Vellum、OpenClaw 和 Hermes,指出 Vellum 因其刻意设计的记忆系统而保持稳定,同时批评了 Hermes 的行为退化问题。
四天的日常使用是暴露“炒作与现实”差距的关键节点。那些在演示或为期两天的评估中看起来很有前途的工具,在真实工作负载下会以各种事先难以察觉的方式崩溃。在一个月这个时间点,主要的故障模式包括:记忆漂移(系统引用本应遗忘的对话上下文)、权限膨胀(代理累积了它从未需要的访问权限),以及自学习系统中的技能退化(强化学习循环用使情况变糟的“改进”覆盖了此前有效的行为)。Vellum 在一个月后依然表现良好,因为其记忆系统被设计为保持“意图明确”。更新在写入前需要确认,因此知识状态不会发生漂移、积累噪声或在正常使用中退化。你始终清楚你的助手知道什么。权限按工具范围限定,因此访问权限无法在后台悄悄扩大。一旦对技能文件进行了大量定制,OpenClaw 的表现也相当不错,但这种调优需要持续投入。Hermes 的表现最差,因为其自我评估循环会随着时间推移导致行为退化,且没有任何信号表明这种退化正在发生。长达一个月的评估是该类别工具的最小有效窗口。一周只能让你看到演示效果,一个月才能让你看到现实。六个月时,奇怪的漂移现象才会开始显现。
相似文章
开源AI助手之间的自主深度差距排名
本文对三个开源AI助手——OpenClaw、Vellum和Hermes——在自主深度方面进行排名,衡量它们能在无需人工干预的情况下自主执行任务的距离。文章强调了原始能力、配置复杂度和长序列可靠性之间的权衡。
开源AI助手的三种不同记忆策略
本文比较了三款开源AI助手——Hermes、Loop和Vellum,重点介绍了它们在记忆积累和知识保留方面的不同方法。文章强调,Vellum的明确用户审批模型是最可靠的,能够在持续时间内保持有意图的知识状态。
Hermes vs Openclaw:影响你最终选择的 5 个真实差异
本文从自我提升、社区技能、多渠道支持、记忆架构以及 Clawdi 上的框架可移植性五个关键维度,对比了 Hermes 和 Openclaw AI 智能体。结论指出,选择取决于用户更看重长期的个性化定制,还是即时的多渠道自动化覆盖。
Claw-Anything: 在更广泛的用户数字世界访问权限下,对始终在线个人助手进行基准测试
介绍了Claw-Anything,这是一个基准测试,用于评估始终在线的个人AI助手在涵盖长时间跨度、多种服务和多样化设备交互的综合用户活动上下文中的表现。实验表明,即使是GPT-5.5也仅达到34.5%的pass@1,突显了当前智能体能力与始终在线辅助需求之间的显著差距。
大约 3 个月将 OpenClaw 作为我的日常代理系统运行。哪些有效,哪些出错,哪些仍然让我烦恼。
在 Raspberry Pi 上使用 OpenClaw 作为日常 AI 代理的 13 周回顾,强调了基于 cron 的自动化和记忆整理等优势,以及模型配置问题和子代理编排等痛点。