我制作了一个小型开源基准测试运行器,用于在我自己的真实工作流中测试OpenClaw智能体。
摘要
一位开发者分享了一个个人开源基准测试运行器,用于在真实、混乱的工作流程中测试 OpenClaw 代理。该工具允许用户定义私有评估案例,在实际工作空间中运行代理,并生成报告,旨在提供比公共基准测试更相关的信号。
嘿,大家好,我一直在为一个自己需要的项目做开发:一种在那些我实际使用中遇到的杂乱任务上对 OpenClaw 代理进行基准测试的方法。仓库地址:https://github.com/javiersgjavi/personal_agent_eval 我并不太信任公开的基准测试。它们确实有用,但无法告诉我一个模型能否处理我实际日常的工作流程:残缺的上下文、散落的文件、PDF、多轮指令、工具调用、矛盾信息、奇奇怪怪的个人偏好,以及其他一切让代理工作在实际中变得烦人的东西。所以我围绕这个想法构建了一个基准测试运行器。基本工作流程很简单。你用 YAML 文件定义测试用例:输入消息、预期产物、评估标准、确定性检查、运行配置、评测配置等等。然后运行器执行这些用例,存储输出,评估运行结果,并生成报告/图表。我最关心的部分是,你可以导入你的**实际 OpenClaw 工作空间**,而不是一个假的玩具设置。你的代理工作空间包含了它的内存、技能、文件、提示词和上下文。基准测试会在这个 OpenClaw 实例中运行代理,所以你测试的是你实际使用的那个代理,而不是某个阉割的仿制品。我没有发布我的私有评估集,因为那会适得其反。如果测试用例永远公开,迟早它们会失去干净的信号。但仓库包含了示例用例、配置、评估配置、确定性检查、报告和图表生成,这样其他人可以构建自己的私有测试套件。我还添加了一个我觉得相当有用的东西:仓库里有一个 `SKILL.md` 文件。这个主意是,你可以让一个代理指向这个仓库,它就有足够的上下文来帮助你定义新的基准测试用例、运行配置、评估标准、确定性检查等等。这比从头手动编辑所有内容要省事得多。我一直在用它在自己的 OpenClaw 工作流程中比较不同的模型。我并不把这些数字看作通用的排行榜,但对我自己的设置来说非常有用,因为它们展示了质量、成本、延迟和工具可靠性之间的权衡。最近一次私有运行的结果:```text Claude Opus 4.6 9.44 GLM 5.1 9.31 GPT-5.5 9.31 Claude Sonnet 4.6 9.25 DeepSeek V4 Flash 8.61 Gemma 4 31B 8.39 DeepSeek V4 Pro 8.28 Kimi K2.6 7.97 ``` 你可以在这里看到可视化[输出](https://github.com/javiersgjavi/personal_agent_eval/blob/main/docs/assets/openclaw-private-benchmark-score-cost.png)。对我来说最有趣的部分并不是“模型 X 赢了”,而是失败模式。有些模型推理能力很强,但使用工具时很笨拙。有些便宜的模型在任务变长或有状态时表现惊人地好。有些失败明显是模型行为问题,有些则是 OpenClaw/工具的粗糙边缘,被基准测试暴露出来了。我分享这个项目是因为我希望这个仓库也能对其他 OpenClaw 用户有用。如果你真的用代理做实际工作,我认为私有基准测试远比靠感觉争论有用得多。我对于贡献、想法、问题、示例用例、更好的评估模式、图表改进,或者只是有人试用后告诉我哪里感觉别扭,都非常欢迎。这个项目还处于早期阶段,所以几乎任何形式的参与都会很有帮助。我很想知道这里的人会添加或改变什么,尤其是关于评估设计、确定性检查,以及如何在不假装它们比实际情况更客观的前提下呈现结果。
相似文章
OpenClawBench:真实世界代理执行轨迹中过程侧异常的基准测试
本文介绍了OpenClawBench,这是一个大规模数据集,用于对真实世界AI代理执行轨迹中的过程侧异常进行基准测试。该数据集揭示了任务成功可能掩盖过程失败,9.33%通过oracle测试的执行仍包含异常,并通过一种新颖的分类法提供了结构化监督。
ClawForge:为命令行智能体生成可执行的交互式基准测试
ClawForge 是一个基于生成器的基准测试框架,用于在状态冲突下生成可执行的命令行工作流,通过在17个场景中评估LLM智能体处理预先存在的部分、过时或冲突工件的能力。
Claw-SWE-Bench:一个用于评估OpenClaw风格编码任务代理框架的基准测试
Claw-SWE-Bench是一个新的基准测试和适配器协议,它标准化了在SWE-bench风格任务上比较不同编码代理的评估条件,揭示了适配器设计对性能和成本有显著影响。
EnterpriseClawBench:基于真实工作会话的智能体基准测试
EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准,包含 852 个可复现任务以及超越单一性能分数的综合评估指标。
你实际用 OpenClaw 做什么比较顺利?
一位用户向社区询问他们使用 OpenClaw 的真实体验,希望获得关于常见工作流、酷自动化、挫折和设置配置的诚实反馈。