我制作了一个小型开源基准测试运行器，用于在我自己的真实工作流中测试OpenClaw智能体。

Reddit r/openclaw 2026/05/14 11:01 工具

open-source benchmark agent-evaluation openclaw workflow-testing private-benchmark developer-tool

摘要

一位开发者分享了一个个人开源基准测试运行器，用于在真实、混乱的工作流程中测试 OpenClaw 代理。该工具允许用户定义私有评估案例，在实际工作空间中运行代理，并生成报告，旨在提供比公共基准测试更相关的信号。

嘿，大家好，我一直在为一个自己需要的项目做开发：一种在那些我实际使用中遇到的杂乱任务上对 OpenClaw 代理进行基准测试的方法。仓库地址：https://github.com/javiersgjavi/personal_agent_eval 我并不太信任公开的基准测试。它们确实有用，但无法告诉我一个模型能否处理我实际日常的工作流程：残缺的上下文、散落的文件、PDF、多轮指令、工具调用、矛盾信息、奇奇怪怪的个人偏好，以及其他一切让代理工作在实际中变得烦人的东西。所以我围绕这个想法构建了一个基准测试运行器。基本工作流程很简单。你用 YAML 文件定义测试用例：输入消息、预期产物、评估标准、确定性检查、运行配置、评测配置等等。然后运行器执行这些用例，存储输出，评估运行结果，并生成报告/图表。我最关心的部分是，你可以导入你的**实际 OpenClaw 工作空间**，而不是一个假的玩具设置。你的代理工作空间包含了它的内存、技能、文件、提示词和上下文。基准测试会在这个 OpenClaw 实例中运行代理，所以你测试的是你实际使用的那个代理，而不是某个阉割的仿制品。我没有发布我的私有评估集，因为那会适得其反。如果测试用例永远公开，迟早它们会失去干净的信号。但仓库包含了示例用例、配置、评估配置、确定性检查、报告和图表生成，这样其他人可以构建自己的私有测试套件。我还添加了一个我觉得相当有用的东西：仓库里有一个 `SKILL.md` 文件。这个主意是，你可以让一个代理指向这个仓库，它就有足够的上下文来帮助你定义新的基准测试用例、运行配置、评估标准、确定性检查等等。这比从头手动编辑所有内容要省事得多。我一直在用它在自己的 OpenClaw 工作流程中比较不同的模型。我并不把这些数字看作通用的排行榜，但对我自己的设置来说非常有用，因为它们展示了质量、成本、延迟和工具可靠性之间的权衡。最近一次私有运行的结果：```text Claude Opus 4.6 9.44 GLM 5.1 9.31 GPT-5.5 9.31 Claude Sonnet 4.6 9.25 DeepSeek V4 Flash 8.61 Gemma 4 31B 8.39 DeepSeek V4 Pro 8.28 Kimi K2.6 7.97 ``` 你可以在这里看到可视化[输出](https://github.com/javiersgjavi/personal_agent_eval/blob/main/docs/assets/openclaw-private-benchmark-score-cost.png)。对我来说最有趣的部分并不是“模型 X 赢了”，而是失败模式。有些模型推理能力很强，但使用工具时很笨拙。有些便宜的模型在任务变长或有状态时表现惊人地好。有些失败明显是模型行为问题，有些则是 OpenClaw/工具的粗糙边缘，被基准测试暴露出来了。我分享这个项目是因为我希望这个仓库也能对其他 OpenClaw 用户有用。如果你真的用代理做实际工作，我认为私有基准测试远比靠感觉争论有用得多。我对于贡献、想法、问题、示例用例、更好的评估模式、图表改进，或者只是有人试用后告诉我哪里感觉别扭，都非常欢迎。这个项目还处于早期阶段，所以几乎任何形式的参与都会很有帮助。我很想知道这里的人会添加或改变什么，尤其是关于评估设计、确定性检查，以及如何在不假装它们比实际情况更客观的前提下呈现结果。

查看原文

我制作了一个小型开源基准测试运行器，用于在我自己的真实工作流中测试OpenClaw智能体。

相似文章

ClawForge：为命令行智能体生成可执行的交互式基准测试

@stainlu：我们开源了一个工作区智能体实现——任意模型、可自托管、按会话沙箱、凭据隔离…

大约 3 个月将 OpenClaw 作为我的日常代理系统运行。哪些有效，哪些出错，哪些仍然让我烦恼。

WildClawBench：真实世界长周期智能体评估基准

我分析了 GitHub 上 800+ 个 OpenClaw 技能，所以你不用亲自去做了。以下是我的发现。

提交意见反馈