我制作了一个小型开源基准测试运行器,用于在我自己的真实工作流中测试OpenClaw智能体。

Reddit r/openclaw 工具

摘要

一位开发者分享了一个个人开源基准测试运行器,用于在真实、混乱的工作流程中测试 OpenClaw 代理。该工具允许用户定义私有评估案例,在实际工作空间中运行代理,并生成报告,旨在提供比公共基准测试更相关的信号。

嘿,大家好,我一直在为一个自己需要的项目做开发:一种在那些我实际使用中遇到的杂乱任务上对 OpenClaw 代理进行基准测试的方法。仓库地址:https://github.com/javiersgjavi/personal_agent_eval 我并不太信任公开的基准测试。它们确实有用,但无法告诉我一个模型能否处理我实际日常的工作流程:残缺的上下文、散落的文件、PDF、多轮指令、工具调用、矛盾信息、奇奇怪怪的个人偏好,以及其他一切让代理工作在实际中变得烦人的东西。所以我围绕这个想法构建了一个基准测试运行器。基本工作流程很简单。你用 YAML 文件定义测试用例:输入消息、预期产物、评估标准、确定性检查、运行配置、评测配置等等。然后运行器执行这些用例,存储输出,评估运行结果,并生成报告/图表。我最关心的部分是,你可以导入你的**实际 OpenClaw 工作空间**,而不是一个假的玩具设置。你的代理工作空间包含了它的内存、技能、文件、提示词和上下文。基准测试会在这个 OpenClaw 实例中运行代理,所以你测试的是你实际使用的那个代理,而不是某个阉割的仿制品。我没有发布我的私有评估集,因为那会适得其反。如果测试用例永远公开,迟早它们会失去干净的信号。但仓库包含了示例用例、配置、评估配置、确定性检查、报告和图表生成,这样其他人可以构建自己的私有测试套件。我还添加了一个我觉得相当有用的东西:仓库里有一个 `SKILL.md` 文件。这个主意是,你可以让一个代理指向这个仓库,它就有足够的上下文来帮助你定义新的基准测试用例、运行配置、评估标准、确定性检查等等。这比从头手动编辑所有内容要省事得多。我一直在用它在自己的 OpenClaw 工作流程中比较不同的模型。我并不把这些数字看作通用的排行榜,但对我自己的设置来说非常有用,因为它们展示了质量、成本、延迟和工具可靠性之间的权衡。最近一次私有运行的结果:```text Claude Opus 4.6 9.44 GLM 5.1 9.31 GPT-5.5 9.31 Claude Sonnet 4.6 9.25 DeepSeek V4 Flash 8.61 Gemma 4 31B 8.39 DeepSeek V4 Pro 8.28 Kimi K2.6 7.97 ``` 你可以在这里看到可视化[输出](https://github.com/javiersgjavi/personal_agent_eval/blob/main/docs/assets/openclaw-private-benchmark-score-cost.png)。对我来说最有趣的部分并不是“模型 X 赢了”,而是失败模式。有些模型推理能力很强,但使用工具时很笨拙。有些便宜的模型在任务变长或有状态时表现惊人地好。有些失败明显是模型行为问题,有些则是 OpenClaw/工具的粗糙边缘,被基准测试暴露出来了。我分享这个项目是因为我希望这个仓库也能对其他 OpenClaw 用户有用。如果你真的用代理做实际工作,我认为私有基准测试远比靠感觉争论有用得多。我对于贡献、想法、问题、示例用例、更好的评估模式、图表改进,或者只是有人试用后告诉我哪里感觉别扭,都非常欢迎。这个项目还处于早期阶段,所以几乎任何形式的参与都会很有帮助。我很想知道这里的人会添加或改变什么,尤其是关于评估设计、确定性检查,以及如何在不假装它们比实际情况更客观的前提下呈现结果。
查看原文

相似文章

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。