我制作了一个小型开源基准测试运行器,用于在我自己的真实工作流中测试OpenClaw智能体。
摘要
一位开发者分享了一个个人开源基准测试运行器,用于在真实、混乱的工作流程中测试 OpenClaw 代理。该工具允许用户定义私有评估案例,在实际工作空间中运行代理,并生成报告,旨在提供比公共基准测试更相关的信号。
嘿,大家好,我一直在为一个自己需要的项目做开发:一种在那些我实际使用中遇到的杂乱任务上对 OpenClaw 代理进行基准测试的方法。仓库地址:https://github.com/javiersgjavi/personal_agent_eval 我并不太信任公开的基准测试。它们确实有用,但无法告诉我一个模型能否处理我实际日常的工作流程:残缺的上下文、散落的文件、PDF、多轮指令、工具调用、矛盾信息、奇奇怪怪的个人偏好,以及其他一切让代理工作在实际中变得烦人的东西。所以我围绕这个想法构建了一个基准测试运行器。基本工作流程很简单。你用 YAML 文件定义测试用例:输入消息、预期产物、评估标准、确定性检查、运行配置、评测配置等等。然后运行器执行这些用例,存储输出,评估运行结果,并生成报告/图表。我最关心的部分是,你可以导入你的**实际 OpenClaw 工作空间**,而不是一个假的玩具设置。你的代理工作空间包含了它的内存、技能、文件、提示词和上下文。基准测试会在这个 OpenClaw 实例中运行代理,所以你测试的是你实际使用的那个代理,而不是某个阉割的仿制品。我没有发布我的私有评估集,因为那会适得其反。如果测试用例永远公开,迟早它们会失去干净的信号。但仓库包含了示例用例、配置、评估配置、确定性检查、报告和图表生成,这样其他人可以构建自己的私有测试套件。我还添加了一个我觉得相当有用的东西:仓库里有一个 `SKILL.md` 文件。这个主意是,你可以让一个代理指向这个仓库,它就有足够的上下文来帮助你定义新的基准测试用例、运行配置、评估标准、确定性检查等等。这比从头手动编辑所有内容要省事得多。我一直在用它在自己的 OpenClaw 工作流程中比较不同的模型。我并不把这些数字看作通用的排行榜,但对我自己的设置来说非常有用,因为它们展示了质量、成本、延迟和工具可靠性之间的权衡。最近一次私有运行的结果:```text Claude Opus 4.6 9.44 GLM 5.1 9.31 GPT-5.5 9.31 Claude Sonnet 4.6 9.25 DeepSeek V4 Flash 8.61 Gemma 4 31B 8.39 DeepSeek V4 Pro 8.28 Kimi K2.6 7.97 ``` 你可以在这里看到可视化[输出](https://github.com/javiersgjavi/personal_agent_eval/blob/main/docs/assets/openclaw-private-benchmark-score-cost.png)。对我来说最有趣的部分并不是“模型 X 赢了”,而是失败模式。有些模型推理能力很强,但使用工具时很笨拙。有些便宜的模型在任务变长或有状态时表现惊人地好。有些失败明显是模型行为问题,有些则是 OpenClaw/工具的粗糙边缘,被基准测试暴露出来了。我分享这个项目是因为我希望这个仓库也能对其他 OpenClaw 用户有用。如果你真的用代理做实际工作,我认为私有基准测试远比靠感觉争论有用得多。我对于贡献、想法、问题、示例用例、更好的评估模式、图表改进,或者只是有人试用后告诉我哪里感觉别扭,都非常欢迎。这个项目还处于早期阶段,所以几乎任何形式的参与都会很有帮助。我很想知道这里的人会添加或改变什么,尤其是关于评估设计、确定性检查,以及如何在不假装它们比实际情况更客观的前提下呈现结果。
相似文章
ClawForge:为命令行智能体生成可执行的交互式基准测试
ClawForge 是一个基于生成器的基准测试框架,用于在状态冲突下生成可执行的命令行工作流,通过在17个场景中评估LLM智能体处理预先存在的部分、过时或冲突工件的能力。
@stainlu:我们开源了一个工作区智能体实现——任意模型、可自托管、按会话沙箱、凭据隔离…
OpenClaw 是一个可自托管的开源工作区智能体平台,支持按会话沙箱和凭据隔离。
大约 3 个月将 OpenClaw 作为我的日常代理系统运行。哪些有效,哪些出错,哪些仍然让我烦恼。
在 Raspberry Pi 上使用 OpenClaw 作为日常 AI 代理的 13 周回顾,强调了基于 cron 的自动化和记忆整理等优势,以及模型配置问题和子代理编排等痛点。
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。
我分析了 GitHub 上 800+ 个 OpenClaw 技能, 所以你不用亲自去做了。以下是我的发现。
作者分析了 GitHub 上超过 800 个 OpenClaw 技能,正在构建一个比 ClawHub 更好的替代品,面向使用 Claude、Cursor 或 OpenClaw 的开发者。Beta 版本即将推出。